华章 IT 


Flavio Junqueira Benjamin Reed 著 
谢 超 周 贵 卿 译 


O'Reilly 精 品 图 书 系列 
ZooKeeper: 分 布 式 过 程 协同 技术 许 解 
ZooKeeper: Distributed Process Coordination 


[52] RLH (Junqueira, F.) | 美 | HA (Reed, B.) 


=t 


者 


谢 超 el oe 详 
ISBN: 978-7-111-52431-1 


本 书 纸 版 由 机 械 工 业 出 版 社 于 2016 年 出 版 ， 电 子 版 由 华章 分 社 (北京 
华章 图 文 信息 有 限 公 司 ， 北 京 奥 维 博世 图 书 发 行 有 限 公司 ) 全 球 范 转 
内 制作 与 发 行 。 


版 权 所 有 ， 侵 权 必 究 


客服 热线 : + 86-10-68995265 


客服 信箱 : service@bbbvip.com 


官方 网 址 : www.hzmedia.com.cn 


日 条 


O’Reilly Media，Inc. 介 绍 
FANT 
前 言 
第 一 部 分 “ZooKeeper 的 概念 和 基础 
第 1 章 ”简介 
ZooKeeper 的 使 命 
1.2 ”示例 : 主 -从 应 用 
1.3 分布 式 协作 的 难点 
1.4 ” ZooKeeper 的 成 功 和 注意 事项 
第 2 章 了解 ZooKeeper 
2.1 ZooKeeper 基 础 


if 


må 


N 


2.2 ZooKeeper 架 构 
2.3 ”开始 使 用 ZooKeeper 
2.4 一 个 主 - 从 模式 例子 的 实现 
2.5 a 
第 二 部 分 “使 用 ZooKeeperj 进 行 开 发 
第 3 章 ” 开 始 使 用 ZooKeeper 的 API 
3.1 设置 ZooKeeper 的 CLASSPATH 


3.2 ”建立 ZooKeeper 会 话 


3.3 ”获取 管理 权 
3.4 注册 从 节点 


显 式 缓存 管理 


6.1 使 用 ACL 
6.2 ”恢复 会 话 
6.3” 当 znode 节 点 重新 创建 时 ， 重 置 版 本 号 
64 syne 方 法 

6.5 ”顺序 性 保障 

6.6 ”数据 字段 和 子 节点 的 限制 

fh A zi ZooKeeper in #8 
6.8 小 结 

第 7 章 C 语 言 客户 端 

7.2 开始 会 语 

7.3 引导 主 节 点 

7.4 行使 管理 权 


Curator: ZooKeeper API 的 高 级 封装 库 


8.1 Curator? 


8.3 监听 器 


8.4 Curator 中 


67 A 

第 三 部 分 “ZooKeeper 的 管理 
第 9 章 ”ZooKeeper 内 部 原理 
请 求 、 事 务 和 标识 符 


9.6 N 


9.10 序 列 化 
941 A 


第 10 章 ”运行 ZooKeeper 

10.1 ”配置 ZooKeeper 服 务 器 
10.2 配置 ZooKeeper 集 群 
10.3 HALE 

10.4 配额 管理 


10.5 ”多 租赁 配置 
10.6 文件 系统 布局 和 格式 
10.7 ”四 字母 命令 

10.8 ”通过 JMX 进 行 监控 
10.9 工具 

10.10 小 结 


O’Reilly Media，Inc. 介 绍 


O’Reilly Media 通 过 图 书 、 杂 志 、 在 线 服 务 、 调 查 研 究 和 会 议 等 方 
式 传播 创新 知识 。 自 1978 年 开始 ，O’Reilly 一 直 都 是 前 沿 发 展 的 见证 者 
和 推动 者 。 超 级 极 客 们 正在 开创 着 未 来 ， 而 我 们 关注 真正 重要 的 技术 
趋势 一 一 通过 放大 那些 “细微 的 信号 ”来 刺激 社会 对 新 科技 的 应 用 。 作 
为 技术 社区 中 活跃 的 参与 者 ，O’Reilly 的 发 展 充满 了 对 创新 的 倡导 、 创 
造 和 发 扬 光 大 。 


O'Reilly 为 软件 开发 人 员 读 来 车 命 性 的 “动物 书 ”;， 创 建 第 一 个 商业 
网 站 (GNN) ; 组 织 了 影响 深远 的 开放 源 代码 峰会 ， 以 至 于 开源 软件 
运动 以 此 命名 ; 创立 了 Make 杂 志 ， 从 而 成 为 DIY 半 命 的 主要 先锋 ， 公 
司 一 如 既往 地 通过 多 种 形式 缔结 信息 与 人 的 纽 市 。O?Reilly 的 会 议和 峰 
会 集聚 了 众多 超级 极 客 和 高 瞻 远 瞩 的 商业 领袖 ， 共 同 拉 绘 出 开创 新 产 
业 的 革命 性 思想 。 作 为 技术 人 士 获 取信 息 的 选择 ，O’Reilly 现 在 还 将 先 
侨 专家 的 知识 传递 给 普通 的 计算 机 用 户 。 无 论 是 通过 书籍 出 版 ， 在 线 
服务 或 者 面授 课程 ， 每 一 项 O’Reilly 的 产品 都 反映 了 公司 不 可 动摇 的 理 


念 一 信息 是 激发 创新 的 力量 。 
业界 评论 


“O’Reilly Radar ZA O HIR o” 


Wired 


“O"Reilly 和 凭借 一 系列 (真希 望 当初 我 也 想到 了 ) 非凡 想法 建立 了 
数 百 万 美元 的 业务 。” 


Business 2.0 


“O’Reilly Conference 是 聚集 关键 思想 领袖 的 绝对 典 
—CRN 


“—7S80’ReillyH BIT — VE A > ABE > BEA A Eel o 


Irish Times 


“Tim 是 位 特 立 独行 的 商人 ， 他 不 光 放 眼 于 最 长 远 、 最 广阔 的 视野 
并 且 切 实地 按照 Yogi Berra 的 建议 去 做 了 : “如 采 你 在 路 上 过 到 多 路 
口 ， 走 小 路 EE) 。’ 回 顾 过 去 Tim 似 乎 每 一 次 都 选择 了 小 上 路， 而且 
有 几 次 都 是 一 内 即 授 的 机 会 ， 尽 管 大 路 也 不 错 。” 


Linux Journal 


译 者 序 


摩尔 定律 揭 示 了 集成 电路 每 18 个 月 计算 性 能 束 会 增加 一 倍 。 随 着 
言 思 的 飞速 膨胀 ， 很 多 应 用 都 无 法 依赖 单个 服务 万 的 性 能 升级 来 处 理 
如 此 庞大 的 数据 量 ， 分 布 式 系统 和 应 用 越 来 越 受到 人 们 的 青睐 。 分 布 
式 系 统 和 应 用 不 仅 能 提供 更 强 的 计算 能 力 ， 还 能 为 我 们 提供 更 好 的 容 
灾 性 和 扩展 性 。 


在 实际 开发 分 布 式 应 用 时 ， 开 发 人 员 与 运 维 人 员 都 会 伦 费 大 量 时 
间 和 精力 来 处 理 异 构 系统 中 的 协作 通信 问题 。 这 也 许 并 不 是 你 想 要 
的 ， 你 最 关心 的 十 战略 业务 是 否 正常 ， 能 否 更 快 更 好 地 提供 目 己 主 宫 
业务 的 系统 和 服务 。 因 此 对 分 布 式 系统 的 协作 处 理 上 ， 需 要 专门 处 理 
协作 问题 的 系统 来 帮助 我 们 。 


ZooKeeper 是 Google 的 Chubby 项 目的 开源 实现 ， 它 曾经 作为 
Hadoop 的 子 项 目 ， 在 大 数据 领域 得 到 广泛 应 用 。ZooKeeper 以 Fast 
Paxos 算 法 为 基础 ， 同 时 为 了 解决 活 锁 问题 ， 对 Fast Paxos 算 法 进行 了 
优化 ， 因 此 也 可 以 广泛 用 于 大 数据 之 外 的 其 他 分 布 式 系统 ， 为 大 型 分 
布 式 系统 提供 可 靠 的 协作 处 理 功能 。 比 如 小 米 公 司 的 米 聊 ， 其 后 合 残 
采用 了 ZooKeeper 作 为 分 布 式 服务 的 统一 协作 系统 。 而 阿里 公司 的 开发 
人 员 也 广泛 使 用 ZooKeeper， 并 对 其 进行 了 适当 修改 ， 开 源 了 一 款 
TaoKeeper 软 件 ， 以 适应 上 自身 业务 需要 。 


本 书 首先 从 分 布 式 系统 的 基本 概念 入 手 ， 然 后 介绍 实际 开发 编程 
的 接口 和 技巧 ， 最 后 谈 及 运 维和 人 员 所 关心 的 配置 维护 知识 。 翻 译 过 程 
中 ， 译 者 对 原版 书籍 通读 一 遍 ， 对 ZooKeeper 义 有 了 新 的 认识 和 理解 ， 
获得 了 分 布 式 应 用 构建 中 需要 注意 的 很 多 细节 ， 这 本 书 可 谓 是 实际 开 
发 和 维护 中 的 一 本 最 佳 参考 书籍 。 对 于 这 么 优秀 的 一 本 书 ， 翻 译 时 译 
者 悍 吉 于 译文 对 读者 理解 的 影响 ， 尽 最 大 努力 保持 原文 意思 ， 以 便 读 
者 真正 能 够 领悟 ZooKeeper 的 精髓 。 


由 于 详 着 水 平 有 限 ， 译 文中 的 不 当 之 处 在 所 难免 ， 有 恳请 广大 读者 
批评 指正 。 


谢 超 ” 周 贯 卿 
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构建 分 布 式 系统 并 不 容易 。 然 而 ， 人 们 日 常 所 使 用 的 应 用 大 多 基 
于 分 布 式 系 统 ， 在 短 时 间 内 依赖 于 分 布 式 系统 的 现状 并 不 会 改变 。 
Apache ZooKeeper 旨 在 减轻 构建 健壮 的 分 布 式 系 统 的 任务 。ZooKeeper 
基于 分 布 式 计算 的 核心 概念 而 设计 ， 主 要 目的 是 给 开发 人 员 提 供 一 套 
容易 理解 和 开发 的 接口 ， 从 而 简化 分 布 式 系统 构建 的 任务 。 


即使 有 了 ZooKeeper， 但 开发 中 分 布 式 处 理 的 环 市 并 不 是 微不足道 
的 事情 ， 因 此 我 们 编写 了 这 本 书 ， 通 过 这 本 书 可 以 让 你 快速 熟悉 如 何 
通过 Apache ZooKeeper 构 建 分 布 式 系统 。 我 们 从 基本 的 概念 入 手 ， 这 
样 可 以 使 你 觉得 目 己 怠 像 是 分 布 式 系统 的 专家 一 样 ， 在 你 看 到 一 系列 
需要 注意 的 警告 时 ， 你 可 能 会 有 一 些 诅 形 ， 不 过 不 用 担心 ， 如 采 你 能 
够 很 好 地 理解 我 们 所 图 述 的 关键 点 ， 你 已 经 走 在 构建 民 好 的 分 布 式 系 
统 的 正确 道路 上 了 。 


H pies 


本 书 适 用 于 分 布 式 系统 的 开发 人 员 ， 以 及 使 用 ZooKeeper 进 行 生产 
经 营 的 应 用 程序 运 维 和 人员。 我 们 假设 读者 具备 Java 语 言 的 知识 ， 并 且 
本 书 为 读者 提供 了 关于 分 布 式 系统 中 概念 的 大 量 背 景 知识 ， 以 便 你 更 
好 地 使 用 ZooKeeper 。 


第 一 部 分 阐述 了 Apache ZooKeeper 这 类 系统 的 设计 目的 和 动机 ， 
并 介绍 分 布 式 系统 的 一 些 必 要 背景 知识 。 


.第 1 章 介 绍 了 ZooKeeper 可 以 做 什么 ， 以 及 其 设计 如 何 文 撑 这 些 任 


R 


.第 2 章 介 绍 了 基本 概念 和 基本 组 成 模块 ， 并 通过 命令 行 工具 的 具 
体操 作 介 绍 ZooKeeper 可 以 做 什么 。 


第 二 部 分 阐述 程序 员 所 需要 掌握 的 ZooKeeper 库 调用 方法 和 编程 技 
巧 ， 虽然 对 系统 运 维 人 员 来 说 也 有 一 定价 值 ， 但 也 可 以 不 选择 阅读 。 
这 一 部 分 主要 以 Java 语 言 的 API 为 主 ， 因 为 Java 是 非 第 流行 的 开发 语 
， 如 有 果 你 之 前 使 用 其 他 开发 语言 ， 可 以 通过 这 一 部 分 内 容 来 学 习 基 
本 的 技术 和 方法 调用 ， 之 后 通过 其 他 语言 来 实现 。 男 外 ， 我 们 也 为 C 
语言 的 应 用 开发 人 员 提 供 了 一 章 内 容 的 开发 方法 。 


Dill 


第 3 章 介绍 Java 语 言 的 API。 
.第 4 章 解释 如 何 跟踪 和 处 理 ZooKeeper 中 的 状态 变更 情况 。 


-第 5 草 介绍 如 何在 系统 或 网 络 故障 时 恢复 应 用 。 


:第 6 章 介 绍 为 了 避免 故障 要 注意 的 一 些 繁杂 却 很 重要 的 场景 。 


第 7 章 介绍 C 语 言 版 的 API， 该 章 也 可 以 作为 非 Java 语 言 实现 的 
ZooKeeper API 的 基础 ， 对 非 Java 语 言 的 开发 人 员 非 常 有 帮助 。 


.第 8 草 介 绍 一 款 更 高 层级 的 封装 的 ZooKeeper 接 口 。 


第 三 部 分 主要 适用 于 ZooKeeper 的 系统 运 维 人 员 ， 尤 其 在 第 9 章 章 
中 即便 对 开发 人 员 也 很 有 价值 。 


.第 9 章 介 绍 ZooKeeper 的 作者 们 在 设计 时 所 采用 的 方案 ， 这 些 知识 
对 运 维 管理 非常 有 帮助 。 


.第 10 章 介绍 如 何 对 ZooKeeper 进 行 配置 。 
本 书 约定 

本 书 中 采用 了 以 下 排版 约定 : 

斜体 


用 于 重点 介绍 新 的 术语 、URL、 命 令 、 工 具 组 件 以 及 文件 和 目录 
名 称 。 


等 宽 字 体 (Constant width) 


指示 变量 、 方 法 、 类 型 、 参 数 、 对 象 以 及 其 他 代码 结构 。 


等 宽 加 粗 (Constant width bold) 


指示 需要 用 户 输入 的 命令 或 其 他 文本 信息 ， 同 时 也 用 于 命令 输出 
中 的 重要 信息 。 


等 宽 斜 体 (Constant width italic) 


指示 代码 或 命令 中 的 占 位 符 ， 这 些 占 位 符 需 要 在 实际 中 奉 换 为 合 
适 的 值 。 


TER: 表示 一 些小 窍门 、 建 议 或 普通 注解 。 


示例 代码 


代码 、 练 习 等 附加 资料 可 以 到 O’Reilly 官 方 网 站 本 书页 面 下 载 。 


本 书 用 于 协助 读者 构建 系统 。 一 般 而 言 ， 如 果 本 书 提供 了 示例 代 
码 ， 你 可 以 在 自己 的 程序 或 文档 中 使 用 ， 并 不 需要 联系 我 们 获得 授 
权 ， 除 非 你 复制 了 大 量 代码 。 例 如 ， 你 在 开发 程序 时 使 用 了 本 书 中 的 
好 几 处 代码 则 不 需要 授权 ， 若 以 CD-ROM 方 式 出 售 并 发 布 O’Reilly 书 籍 
中 的 示例 则 需要 得 到 授权 许可 ， 引 用 本 书 及 其 示例 代码 来 解答 问题 并 
不 需要 授权 许可 ， 将 本 书 中 大 量 示 例 代 码 引 入 你 自己 的 著作 中 则 需要 
授权 许可 。 


我 们 非常 感谢 各 类 引文 参考 ， 但 并 不 强制 约束 。 引 文 参考 包括 书 
名 、 作 者 、 出 版 方 和 ISBN。 例 如 : “ZooKeeper by Flavio Junqueira and 
Benjamin Reed (O’Reilly) .Copyright 2014Flavio Junqueira and 
Benjamin Reed, 978-1-449-36130-3.” 


如 果 你 对 合理 使 用 示例 代码 时 有 疑问 ， 或 对 以 上 所 介绍 的 许可 授 
权 有 疑问 ， 请 通过 permissions@oreilly.com 联 系 我 们 。 


联系 我 们 


有 关 本 书 的 任何 建议 和 疑问 ， 可 以 通过 下 列 方式 与 我 们 取得 联 
系 : 


美国 : 


O'Reilly Media, Inc. 


1005Gravenstein Highway North 


Sebastopol, CA 95472 


FF E: 


北京 市 西城 区 西直门 南大 街 2 号 成 铭 大 厦 C 座 807 室 (100035) 


RADA SH GER) ARAT 


我 们 会 在 本 书 的 网 页 中 列 出 勘误 表 、 示 例 和 其 他 信息 。 可 以 通过 
访问 如 下 网 址 获得 : 


http://shop.oreilly.com/product/0636920028901.do 
要 评论 或 询问 本 书 的 技术 问题 ， 请 发 送 电子 邮件 到 : 
bookquestions@oreilly.com 


想 了 解 天 于 O’Reilly 图 书 、 课 程 、 会 议和 新 闻 的 更 多 信息 ， 请 访问 
以 下 网 站 ; 


http://www.oreilly.com.cn 


http://www.oreilly.com 
致谢 


我 们 要 感谢 本 书 的 编辑 人 员 ， 从 最 初 的 Nathan Jepson 到 后 来 Andy 
Oram 的 努力 ， 他 们 的 出 色 工 作证 我 们 得 以 出 版 此 书 。 


我 们 要 感谢 所 有 在 此 书 上 花费 这 么 多 时 间 的 家 人 和 雇主 ， 和 希望 你 
也 能 欣赏 我 们 的 成 采 。 


我 们 要 感谢 为 本 书 花费 大 量 时 间 的 审阅 者 们 ， 他 们 给 予 我 们 很 大 
帮助 ， 为 我 们 提供 建议 来 改进 本 书 ， 他 们 包括 Patrick Hunt ` Jordan 
Zimmerman ` Donald Miner ` Henry Robinson ` Isabel Drost-Fromm 和 


Thawan Kooburat ° 


ZooKeeper 是 Apache ZooKeeper 社 区 共同 创作 的 ， 我 们 与 这 些 杰 出 
的 提交 者 和 贡献 者 一 同 工 作 ， 非 常 采 驻 能 与 他 们 一 同 工 作 。 我 们 还 要 
问 ZooKeeper 的 用 户 们 致谢 ， 多 年 以 来 ， 他 们 辐 我 们 提交 bug， 给 予 我 
们 很 多 反馈 信息 和 鼓励 。 


第 一 部 分 “ZooKeeper 的 概念 和 基础 


这 一 部 分 适合 任何 对 ZooKeeper 感 兴趣 的 读者 ， 该 部 分 介绍 


ZooKeeper 所 处 理 的 问题 ， 以 及 在 ZooKeeper 的 设计 中 的 权衡 取舍 。 


第 1 章 人 简介 

在 计算 机 诞生 之 后 很 长 的 一 段 时 间 里 ， 一 个 应 用 服务 起 在 一 个 独 
立 的 单 处 理 右 计算 机 上 运行 一 段 程 序 。 时 至 今日 ， 应 用 服务 已 经 发 生 
了 很 大 的 变化 。 在 大 数据 和 云 计算 盛行 的 今天 ， 应 用 服务 由 很 多 个 独 
立 的 程序 组 成 ， 这 些 独 立 的 程序 则 运行 在 形形色色 、 千 变 万 化 的 一 组 
计算 机 上 。 


相对 于 开发 在 一 人 台 计 算 机 上 运行 的 单个 程序 ， 如 何 让 一 个 应 用 中 
多 个 独立 的 程序 协同 工作 是 一 件 非 常 困难 的 事情 。 开 发 这 样 的 应 用 ， 
很 容易 让 很 多 开发 人 员 隐 入 如 何 使 多 个 程序 协同 工作 的 逻辑 中 ， 最 后 
导致 没有 时 间 更 好 地 思考 和 实现 他 们 目 己 的 应 用 程序 逻辑 ， 又 或 者 开 
发 人 员 对 协同 逻辑 关注 不 够 ， 只 是 用 很 少 的 时 间 开 发 了 一 个 简单 脆弱 
的 主 协 调 大 ， 导 致 不 可 靠 的 单一 失效 点 。 


ZooKeeper 的 设计 保证 了 其 健壮 性 ， 这 融 使 得 应 用 开发 人 员 可 以 更 
多 关注 应 用 本 号 的 逻辑 ， 而 不 是 协同 工作 上 “。ZooKeeper 从 文件 系统 
API 得 到 局 发 ， 提 供 一 组 简单 的 API， 使 得 开发 人 员 可 以 实现 通用 的 协 
作 任务 ， 包 括 选举 主 节 点、 管理 组 内 成 员 关 系 、 管 理 元 数据 等 。 
ZooKeeper 包 括 一 个 应 用 开发 库 〈 主 要 提供 Java 和 C 两 种 语言 的 APT) 
和 一 个 用 Java 实 现 的 服务 组 件 。ZooKeeper 的 服务 组 件 运行 在 一 组 专用 
服务 硕 之 上 ， 保 证 了 高 容错 性 和 可 扩展 性 。 


当 你 决定 使 用 ZooKeeper 来 设计 应 用 时 ， 最 好 将 应 用 数据 和 协同 数 
据 独 立 开 。 比 如 ， 网 络 邮 箱 服 务 的 用 户 对 目 己 邮箱 中 的 内 容 感 兴趣 ， 
但 是 并 不 关心 由 哪 台 服务 右 来 处 理 特定 邮箱 的 请 求 。 在 这 个 例子 中 ， 
邮箱 内 容 束 是 应 用 数据 ， 而 从 邮箱 到 某 一 人 台 邮 箱 服务 右 之 间 的 映 冉 天 
系 就 是 协同 数据 (或 称 元 数据 ) 。 整 个 ZooKeeper 服 务 所 管理 的 束 是 后 
者 。 


1.1 ZooKeeper 的 使 命 


试 着 说 明 ZooKeeper 能 为 我 们 做 什么 ， 束 像 解 释 蝶 丝 能 为 我 们 做 什 
么 一 样 。 我 们 可 以 简单 地 表述 ， 蝶 丝 刀 可 以 让 我 们 拧 动 蝶 丝 。 但 是 这 
种 方式 并 不 能 完全 表达 螺丝 刀 的 能 力 。 实 际 上 ， 蝶 丝 刀 还 可 以 让 我 们 
组 法 各 种 家 具 和 电子 设备 ， 甚 至 在 某 些 情 况 下 你 还 可 以 用 它 把 画 挂 在 
省 上 。 就 像 蝶 丝 刀 的 例子 一 样 ， 我 们 将 介绍 ZooKeeper 能 做 什么 ， 虽 然 
未 必 详 尽 。 


关于 ZooKeeper 这 样 的 系统 功能 的 讨论 都 围绕 痢 一 条 主线 : 它 可 以 
在 分 布 式 系统 中 协作 多 个 任务 。 一 个 协作 任务 是 指 一 个 包含 多 个 进程 
的 任务 。 这 个 任务 可 以 是 为 了 协作 或 者 是 为 了 管理 竞争 。 协 作 和 意味 着 
多 个 进程 需要 一 同 处 理 某 些 事情 ， 一 些 进程 采取 某 些 行动 使 得 其 他 进 
程 可 以 继续 工作 。 比 如 ， 在 典型 的 主 - 从 (masterworker) 工作 模式 
中 ， 从 世上 点 处 于 空 采 状态 时 会 通知 主 世 点 可 以 接受 工作 ， 于 是 主 世 点 
忠 会 分 配 任 务 给 从 市 点 。 苋 争 则 不 同 。 它 指 的 是 两 个 进程 不 能 同时 处 
理工 作 的 情况 ， 一 个 进程 必须 等 竺 另 一 个 进程 。 同 样 在 主 - 从 工作 模式 
的 例子 中 ， 我 们 想 有 一 个 主 节 点 ， 但 是 很 多 进程 也 许 都 想 成 为 主 市 
上 护 ， 因 此 我 们 需要 实现 互 不 排他 锁 (mutual exclusion) ° Kink, R 
们 可 以 认为 获取 主 市 点 身份 的 过 程 其 实 束 古 获 取 锁 的 过 程 ， 获 得 主 市 
扩 控 制 权 锁 的 进程 即 主 市 点 进程 。 


如 有 果 你 曾经 有 过 多 线程 程序 开发 的 经 验 ， 殊 会 发 现 很 多 类 似 的 问 
题 。 实 际 上 ， 在 一 台 计 算 机 上 运行 的 多 个 进程 和 跨 计 算 机 运行 的 多 个 
进程 从 概念 上 区 别 并 不 大 。 在 多 线程 情况 下 有 用 的 同步 原 语 在 分 布 式 
系统 中 也 同样 有 效 。 一 个 重要 的 区 别 在 于 ， 在 典型 的 不 共 至 环境 下 不 
同 的 计算 机 之 间 不 共 圣 除了 网 络 之 外 的 其 他 任何 信息 。 虽 然 许 多 消息 
传递 算法 可 以 实现 同步 原 语 ， 但 是 使 用 一 个 提供 某 种 有 序 共 享 存储 的 
组 件 往 往 更 加 人 简便， 这 正定 ZooKeeper 所 采用 的 方式 。 


协同 并 不 总 是 采取 像 群 首选 举 或 者 加 锁 等 同步 原 语 的 形式 。 配 置 
元 数据 也 十 一 个 进程 通知 其 他 进程 需要 做 什么 的 一 种 浓 用 方式 。 比 
如 ， 在 一 个 主 -从 系统 中 ， 从 市 点 需要 知道 任务 已 经 分 配 到 它们 。 即 使 
在 主 市 点 发 生 朋 冲 的 情况 下 ， 这 些 信息 也 需要 有 效 。 


让 我 们 看 一 些 ZooKeeper 的 使 用 实例 ， 以 便 更 直观 地 理解 其 用 处 : 
Apache HBase 


HBase 是 一 个 通 销 与 Hadoop 一 起 使 用 的 数据 存储 仓库 。 在 HBase 
，ZooKeeper 用 于 选举 一 个 集群 内 的 主 节 点 ， 以 便 跟 躁 可 用 的 服务 
， 并 保存 集群 的 元 数据 。 


= 


Ji 
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Apache Kafka 


Kafka 是 一 个 基于 发 布 -订阅 (pub-sub) 模型 的 消息 系统 。 其 中 
ZooKeeper 用 于 检测 月 沉 ， 实 现 主题 (topic) 的 发 现 ， 并 保持 主题 的 生 
产 和 消费 状态 。 


Apache Solr 
Solr 是 一 个 企业 级 的 搜索 平台 。Solr 的 分 布 式 版 本 命名 为 


SolrCloud， 它 使 用 ZooKeeper 来 存储 集群 的 元 数据 ， 并 协作 更 新 这 些 
元 数据 。 

Yahoo! Fetching Service 

Yahoo! Fetching Service 是 爬虫 实现 的 一 部 分 ， 通 过 缓存 内 容 的 方 
式 高 效 地 获取 网 页 信息 ， 同 时 确保 满足 网 页 服务 器 的 管理 规则 (比如 


robots.txt 文 件 ) 。 该 服务 采用 ZooKeeper 实 现 主 和 点 选举 、 朋 溃 检 测 和 
元 数据 存储 。 


Facebook Messages 


Facebook 推 出 的 这 个 应 用 eee 集成 了 
email、 短 信 、Facebook 聊 天 和 Facebook 收 件 箱 等 通信 通道 。 该 应 用 将 
ZooKeeper 作 为 控制 器 ， 用 来 实现 数据 分 片 、 故 障 恢复 和 服务 发 现 等 功 


AB 
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除了 以 上 介绍 的 这 些 应 用 外 ， 还 有 很 多 使 用 ZooKeeper 的 例子 。 根 
据 这 些 代 表 应 用 ， 我 们 可 以 从 更 抽象 的 层次 上 讨论 ZooKeeper。 当 开发 
人 员 使 用 ZooKeeperj 进 行 开发 时 ， 开 发 人 员 设计 的 那些 应 用 往往 可 以 看 
成 一 组 连接 到 ZooKeeper 服 务 器 端的 客户 端 ， 它 们 通过 ZooKeeper 的 客 
户 端 API 和 连接 到 ZooKeeper 服 务 硕 端 进行 相应 的 操作 。Zookeep 的 客户 
端 API 功 能 强大 ， 其 中 包括 : 


-保障 强 一 致 性 、 有 序 性 和 持久 性 。 
:实现 通用 的 同步 原 语 的 能 


-在 实际 分 布 式 系统 中 ， 并 发 往往 导致 不 正确 的 行为 。ZooKeeper 
提供 了 一 种 简单 的 并 发 处 理 机 制 。 


当然 ，ZooKeeper 也 并 不 是 万 能 的 ， 我 们 还 不 能 让 它 解 决 所 有 问 
题 。 对 我 们 来 说 ， 更 重要 的 是 要 了 解 ZooKeeper 为 我 们 提供 了 什么 ， 并 
知道 如 何 处 理 其 中 的 一 些 速 手 问题 。 这 本 书 的 目标 之 一 就 是 讨论 如 何 
处 理 这 些 问 题 。 我 们 将 介绍 ZooKeeper 为 开发 人 员 提供 的 各 种 功能 ， 也 
会 讨论 我 们 在 开发 ZooKeeper 应 用 中 直到 的 一 些 问题 ， 珊 你 走 入 
ZooKeeper 的 世界 。 


关于 ZooKeeper 名 字 的 来 源 


ZooKeeper 由 雅虎 研究 院 开发 。 我 们 小 组 在 进行 ZooKeeper 的 开发 
一 段 时 间 之 后 ， 开 始 推荐 给 其 他 小 组 ， 因 此 我 们 需要 为 我 们 的 项 目 起 
一 个 名 字 。 与 此 同时 ， 小 组 也 一 同 致 力 于 Hadoop 项 目 ， 参 与 了 很 多 动 
物 命 名 的 项 目 ， 其 中 有 广为人知 的 Apache Pig 项 目 
(http://pig.apache.org ) 。 我 们 在 讨论 各 种 各 样 的 名 字 时 ， 一 位 团队 成 
员 提 到 我 们 不 能 再 使 用 动物 的 名 字 了 ， 因 为 我 们 的 主管 觉得 这 样 下 去 
会 觉得 我 们 生活 在 动物 园 中 。 大 家 对 此 产生 了 共鸣 ， 分 布 式 系统 融和 像 
一 个 动物 园 ， 混 乱 且 难 以 管理 ， 而 ZooKeeper 就 是 将 这 一 切 变 得 可 控 。 


本 书 封 面 上 的 猫 也 顺 有 渊源 。 雅 虎 研 究 院 早期 的 一 篇 天 于 
ZooKeeper 的 文章 谈 到 ， 分 布 式 进程 管理 职 像 养 一 群 独 一 样 ， 而 
ZooKeeper 这 个 名 字 比 CatHerder 更 好 一 些 。 


1.1.1 ZooKeeper 改 变 了 什么 


使 用 ZooKeeper 是 否 意味 着 需要 以 全 新 的 方式 进行 应 用 程序 开发 ? 
事实 并 非 如 此 ，ZooKeeper 实 际 上 简化 了 开发 流程 ， 提 供 了 更 加 敏捷 健 
壮 的 方案 。 


ZooKeeper 之 前 的 其 他 一 些 系 统 采用 分 布 式 锁 管 理 万 或 者 分 布 式 数 
据 库 来 实现 协作 。 实 际 上 ，ZooKeeper 也 从 这 些 系统 中 借鉴 了 很 多 概 
念 。 但 是 ，ZooKeeper 的 设计 更 专注 于 任务 协作 ， 并 不 提供 任何 锁 的 接 


口 或 通用 存储 数据 接口 。 同 时 ，ZooKeeper 没 有 给 开发 人 员 强 加 任何 特 
殊 的 同步 原 语 ， 使 用 起 来 非常 灵活 。 


虽然 我 们 也 可 以 不 使 用 ZooKeeper 来 构建 分 布 式 系统 ， 但 是 使 用 
ZooKeeper 可 以 让 开发 人 员 更 专注 于 其 应 用 本 身 的 逻辑 而 不 古 神 秘 的 分 
布 式 系统 概念 。 所 以 不 使 用 ZooKeeper 开 发 分 布 式 系统 也 并 不 是 不 可 
能 ， 只 是 难度 会 比较 大 。 


1.1.2 ”ZooKeeper 不 适用 的 场景 


整个 ZooKeeper 的 服务 磊 集 群 管理 着 应 用 协作 的 关键 数据 。 
ZooKeeper 不 适合 用 作 海 量 数据 存储 。 对 于 需要 存储 海量 的 应 用 数据 的 
情况 ， 我 们 有 很 多 备 选 方案 ， 比 如 说 数据 库 和 分 布 式 文件 系统 等 。 
为 不 同 的 应 用 有 不 同 的 需求 ， 如 对 一 致 性 和 持久 性 的 不 同 需 求 ， 所 以 
在 设计 应 用 时 ， 最 佳 实践 还 是 应 该 将 应 用 数据 和 协同 数据 独立 开 。 


ZooKeeper 中 实现 了 一 组 核心 操作 ， 通 过 这 些 可 以 实现 很 多 常见 分 
布 式 应 用 的 任务 。 你 知道 有 多 少 应 用 服务 采用 主 世 点 方式 或 进程 啊 应 
跟踪 方式 ?” 虽然 ZooKeeper 并 没有 为 你 实现 这 些 任务 ， 也 没有 为 应 用 实 
现 主 下 点 选举 ， 或 者 进程 存活 与 否 的 跟 踩 的 功能 ， 但 是 ，ZooKeeper 拓 
供 了 实现 这 些 任务 的 工具 ， 对 于 实现 什么 样 的 协同 任务 ， 由 开发 人 员 
目 己 决定 。 


1.1.3 ”关于 Apache 项 目 


ZooKeeper 是 一 个 托管 到 Apache 软 件 基 金 会 《Apache Software 
Foundation) 的 开源 项 目 ，Apache 的 项 目 管理 委员 会 (Project 
Management Committee，PMC) 负责 项 目 管理 和 监督 。 只 有 技术 专家 
可 以 检查 补丁 (patch) ， 但 是 任何 开发 人 员 都 可 以 贡献 补丁 。 开 发 人 
员 为 项 目 做 出 贡献 后 也 可 以 成 为 技术 专家 。 对 项 目的 贡献 不 仅仅 限于 
贡献 补丁 ， 也 可 以 通过 其 他 形式 参与 项 目 ， 与 社区 成 员 们 互动 。 我 们 
在 邮件 列表 中 进行 很 多 讨论 ， 如 新 功能 特性 、 用 户 反馈 的 新 问题 等 。 
我 们 强烈 建议 开发 人 员 积 极 参与 开发 社区 ， 订 阅 邮 件 列表 ， 并 参与 讨 
论 。 如 果 你 想 通 过 一 些 项 目 与 ZooKeeper 社 区 保持 长 期 关系 ， 你 也 许 会 
发 现成 为 一 名 技术 专家 很 有 价值 。 


1.1.4 通过 ZooKeeper 构 建 分 布 式 系统 


对 分 布 式 系统 的 定义 有 很 多 ， 但 对 于 本 书 的 目的 ， 我 们 对 分 布 式 
系统 的 定义 为 :分 布 式 系统 是 同时 跨越 多 个 物理 主机 ， 独 立 运行 的 多 
个 软件 组 件 所 组 成 的 系统 。 我 们 采用 分 布 式 去 设计 系统 有 很 多 原因 ， 
分 布 式 系 统 能 够 利用 多 人 处理 右 的 运算 能 力 来 运行 组 件 ， 比 如 并 行 复制 
任务 。 一 个 系统 也 许 由 于 战略 原因 ， 需 要 分 布 在 不 同 地 点 ， 比 如 一 个 
应 用 由 多 个 不 同 地 点 的 服务 器 提 供 服 务 。 


使 用 一 个 独立 的 协调 组 件 有 几 个 重要 的 好 处 : 盲 先 ， 我 们 可 以 独 
立地 设计 和 实现 该 组 件 ， 这 样 独立 的 组 件 可 以 路 多 个 应 用 共享 。 其 
次 ， 系 统 絮 构 师 可 以 简化 协作 方面 的 工作 ， 这 些 并 不 是 琐碎 的 小 事 
(本 书 试图 说 明 这 些 ) 。 最 后 ， 系 统 可 以 独立 地 运行 和 协作 这 些 组 
件 ， 独 立 这 样 的 组 件 ， 也 简化 了 生产 环境 中 解决 实际 问题 的 任务 。 


软件 组 件 以 操作 系统 的 进程 方式 运行 ， 很 多 时 候 还 涉及 多 线程 的 
执行 。 因 此 ZooKeeper 的 服务 器 和 客户 端 也 是 以 进程 的 方式 运行 ， 一 个 
单独 的 物理 主机 〈 无 论 是 一 个 独立 主机 还 是 一 个 虚拟 环境 中 的 操作 系 
统 ) 上 运行 一 个 单独 的 应 用 进程 ， 尽 管 进 程 可 能 采用 多 线程 运行 的 方 
式 ， 以 便利 用 现代 处 理 器 的 多 核 (multicore) 处 理 能 


分 布 式 系统 中 的 进程 通信 有 两 种 选择 : 直接 通过 网 络 进行 信息 区 
换 ， 或 读 写 某 些 共享 存储 。ZooKeeper 使 用 共享 存储 模型 来 实现 应 用 间 
的 协作 和 同步 原 语 。 对 于 共 至 存储 本 映 ， 义 需要 在 进程 和 存储 间 进 行 
网 络 通 信 。 我 们 强调 网 络 通信 的 重要 性 ， 因 为 它 是 分 布 式 系 统 中 并 发 
设计 的 基础 。 


在 真实 的 系统 中 ， 我 们 需要 特别 注意 以 下 问题 : 


消 轧 传输 可 能 会 发 生 任意 延迟 ， 比 如 ， 因 为 网 络 拥堵 。 这 种 任意 
延迟 可 能 会 导致 不 可 预期 的 后 果 。 比 如 ， 根 据 基准 时 钟 ， 进 程 P 先 发 


送 了 一 个 消 思 ， 之 后 另 一 个 进程 Q 发 送 了 消息 ， 但 是 进程 Q 的 消 思 也许 
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进程 回 另 一 个 进程 发 送 消息 时 ， 整 个 消 妃 的 延 时 时 间 约 等 于 发 送 端 消 


耗 的 时 间 、 传 输 时 间 、 接 收 端的 处 理 时 间 的 总 和 。 如 果 发 送 或 接收 过 
程 需要 调度 时 间 进 行 处 理 ， 消 轧 延 时 会 更 高 。 


时 钟 仿 移 


使 用 时 间 概 念 的 系统 并 不 少见 ， 比 如 ， 确 定 某 一 时 间 系 统 中 发 生 
了 哪些 事件 。 处 理 絮 时 钟 并 不 可 靠 ， 它 们 之 间 也 会 发 生 任意 的 偏 移 。 
因此 ， 依 赖 处 理 絮 时 钟 也 许 会 导致 错误 的 决策 。 


关于 这 些 问题 的 一 个 重要 结果 是 ， 在 实际 情况 中 ， 我 们 很 难 判 断 
一 个 进程 是 般 答 了 还 是 某 些 因素 导致 了 延 时 。 没 有 收 到 一 个 进程 发 送 
的 消息 ， 可 能 是 该 进程 已 经 朋 演 ， 或 是 最 新 消 恩 发 生 了 网 络 延迟 ， 或 
古 其 他 情况 导致 进程 延迟 ， 或 者 是 进程 时 钟 发 生 了 偏 移 。 我 们 无 法 确 


定 一 个 被 称 为 异步 (asynchronous) 的 系统 中 的 这 些 区 别 。 


数据 中 心 通 第 使 用 大 量 统 一 的 硬件 。 但 即使 在 数据 中 心 ， 我 们 需 
要 发 现 这 些 问题 对 应 用 服务 之 来 的 影响 ， 因 为 一 个 应 用 服务 使 用 了 多 


代 的 硬件 ， 甚 至 对 于 同一 批 次 的 人 硬件 也 存在 微小 但 显著 的 性 能 差异 。 
所 有 这 些 事情 使 分 布 式 系统 设计 师 的 生活 越 来 越 复 杂 。 


ZooKeeper 的 精确 设计 简化 了 这 些 问题 的 处 理 ，ZooKeeper 并 不 是 
完全 消除 这 些 问 题 ， 而 是 将 这 些 问 题 在 应 用 服务 层面 上 完全 透明 化 ， 
使 得 这 些 问题 更 容易 处 理 。ZooKeeper 实 现 了 重要 的 分 布 式 计算 问题 的 
解决 方案 ， 直观 为 开发 人 员 提 供 某 种 程度 上 实现 的 封闭 ， 至 少 这 是 我 
们 一 直 斋 望 的 。 


1.2 示例 : 主 - 从 应 用 


我 们 从 理论 上 介绍 了 分 布 式 系 统 ， 现 在 ， 是 时 候 让 它 更 具体 一 点 
了 。 考 虑 在 分 布 式 系 统 设 计 中 一 个 得 到 广泛 应 用 的 架构 ， 一 个 主 -从 
(master-worker) 架构 (图 1-1) 。 该 系统 中 遵循 这 个 架构 的 一 个 重要 
例子 是 HBase 一 一 一 个 Google 的 数据 存储 系统 (BigTable) 模型 的 实 
现 ， 在 最 高 层 ， 主 节点 服务 器 (HMaster) 负责 跟踪 区 域 服务 器 
(HRegionServer) 是 否 可 用 ， 并 分 派 区 域 到 服务 器 。 因 本 书 未 涉及 这 
些 内 容 ， 如 欲 了 解 它 如 何 使 用 ZooKeeper 等 更 多 细节， 建议 查看 HBase 
相关 文档 。 我 们 讨论 的 焦点 是 一 般 的 主 -从 架构 。 


图 1-1: 主 - 从 示例 


一 般 在 这 种 架构 中 ， 主 世上 点 进程 负责 跟踪 从 节点 状态 和 任务 的 有 
效 性 ， 并 分 配 任务 到 从 节点 。 对 ZooKeeper 来 说 ， 这 个 架构 风格 具有 代 
表 性 ,前述 了 大 多 数 流 行 的 任务 ， 如 选举 主 太 后， 跟踪 有 效 的 从 市 
扩 ， 维 护 应 用 元 数据 。 


要 实现 主 -从 模式 的 系统 ， 我 们 必须 解决 以 下 三 个 关键 问题 : 
ET RAR 


如 采 主 市 点 发 送 错误 并 失效 ， 系 统 将 无 法 分 配 新 的 任务 或 重新 分 
配 已 失败 的 任务 。 
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如 采 主 万 点 和 从 太 点 之 间 无 法 进行 信息 交换 ， 从 世 点 将 无 法 得 知 


新 任务 分 配给 它 。 


为 了 处 理 这 些 问题 ， 之 前 的 主 节 点 出 现 问 题 时 ， 系 统 需要 可 靠 地 
选举 一 个 新 的 主 证 点 ， 判 断 哪些 从 市 点 有 效 ， 并 判定 一 个 从 市 点 的 状 
仿 相 对 于 系统 其 他 部 分 是 否 失 效 。 我 们 将 会 在 下 文中 介绍 这 些 任务 。 


主 节 点 失效 时 ， 我 们 需要 有 一 个 备份 主 节 点 (backup master) 。 当 
EREA (primary master) 月 涡 时 ， 备 份 主 市 点 接管 主要 主 节 点 的 
角色 ， 进 行 故障 转移 ， 然 而 ， 这 并 不 是 简单 开始 处 理 进入 主 世 点 的 请 


求 。 新 的 主要 主 节 点 需要 能 够 恢复 到 旧 的 主要 主 世 点 天 省 时 的 状态 。 
对 于 主 世 点 状态 的 可 恢复 性 ， 我 们 不 能 依靠 从 已 经 天 种 的 主 志 点 来 获 
取 这 些 信息 ， 而 需要 从 其 他 地 方 获 取 ， 也 就 是 通过 ZooKeeper 来 获取 © 


状态 恢复 并 不 是 唯一 的 重要 问题 。 假 如 主 忆 点 有 效 ， 备 份 主 节点 
却 认为 主 节 点 已 经 骨 演 。 这 种 错误 的 假设 可 能 发 生 在 以 下 情况 ， 例 如 
主 节 点 负载 很 高 ， 导 致 消息 任意 延迟 (关于 这 部 分 内 容 请 参见 1.1.4 
T) ， 备 份 主 节 点 将 会 接管 成 为 主 节 点 的 角色 ， 执 行 所 有 必需 的 程 
序 ， 最 终 可 能 以 主 节 点 的 角色 开始 执行 ， 成 为 第 二 个 主要 主 节 点 "更 
糟 的 是 ， 如 果 一 些 从 节点 无 法 与 主要 主 节 点 通信 ， 如 由 于 网 络 分 区 
(network partition) 错误 导致 ， 这 些 从 节点 可 能 会 停止 与 主要 主 节 点 
的 通信 ， 而 与 第 二 个 主要 主 节 点 建立 主 -从 关系 。 针 对 这 个 场景 中 导致 
的 问题 ， 我 们 一 般 称 之 为 脑 裂 (split-brain) : 系统 中 两 个 或 者 多 个 音 
分 开始 独立 工作 ， 导 致 整体 行为 不 一 致 性 。 我 们 需要 找 出 一 种 方法 来 
处 理 主 下 点 失效 的 情况 ， 关 键 是 我 们 需要 避免 发 生 脑 裂 的 情况 。 


1.2.2 ”从 节点 失效 
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如 果 从 节点 月 溃 了 ， 所 有 已 派发 给 这 个 从 节点 且 尚 未 完成 的 任务 
需要 重新 派发 。 其 中 首要 需求 是 让 主 世 点 具有 检测 从 节点 的 裔 省 的 能 
力 。 主 市 把 必 须 能 够 检测 到 从 节操 的 朋 涡 ， 并 确定 哪些 从 而 点 是 否 有 
效 以 便 派发 崩溃 市 点 的 任务 。 一 个 从 市 点 崩溃 时 ， 从 贡 点 也 许 执行 了 
部 分 任务 ， 也 许 全 部 执行 完 ， 但 没有 报告 结 有 末 。 如 有 果 整 个 运算 过 程 产 
生 了 其 他 作用 ， 我 们 还 有 必要 执行 某 些 恢复 过 程 来 清除 之 前 的 状态 。 


1.2.3 ”通信 故障 


如 琳 一 个 从 节操 与 主 节 扩 的 网 络 连 接 断 开 ， 比 如 网 络 分 区 
(network partition) 导 人 至， 重新 分 配 一 个 任务 可 能 会 导致 两 个 从 节点 
执行 相同 的 任务 。 如 果 一 个 任务 允许 多 次 执行 ， 我 们 在 进行 任务 再 分 
配 时 可 以 不 用 验证 第 一 个 从 市 点 古 否 完成 了 该 任务 。 如 琳 一 个 任务 不 
人 允许， 那么 我 们 的 应 用 需要 适应 多 个 从 节点 执行 相同 任务 的 可 能 性 。 
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对 任务 加 锁 并 不 能 保证 一 个 任务 执行 多 次 ， 比 如 以 下 场景 中 描述 


1. 主 节点 M1 派 发 任务 T1 给 从 节点 W1。 


2.W1 为 任务 T1 获 取 锁 ， 执 行 任务 ， 然 后 释放 锁 。 


3.M1 怀 疑 W1 已 经 朋 溃 ， 所 以 再 次 派发 任务 T1 给 从 节点 W2。 


4.W2 为 任务 T1 获 取 锁 ， 执 行 任 务 ， 然 后 释放 锁 。 


在 这 里 ，T1 的 锁 并 没有 阻止 任务 被 执行 两 次 ， 因 为 两 个 从 节点 间 
运行 任务 时 没有 步骤 交错 。 处 理 类 似 情 况 就 需要 “ 仅 一 次 "和 “最 多 一 
次 ”的 语义 学 ， 而 这 又 依赖 于 应 用 的 特定 处 理 机 制 。 例 如 ， 如 有 果 应 用 数 
据 使 用 了 时 间 惟 数据 ， 而 假定 任务 会 修改 应 用 数据 ， 那 么 该 任务 的 执 
行 成 功 整 取 决 于 这 个 任务 所 取得 的 这 个 时 间 礁 的 值 。 如 琳 改 变 应 用 状 
态 的 操作 不 是 原子 性 操作 ， 那 么 应 用 还 需要 具有 局 部 变更 的 回 退 能 
力 ， 否 则 最 终 将 导致 应 用 的 非 一 致 性 。 


之 所 以 讨论 这 些 问 题 ， 最 主要 的 原因 是 想 说 明 实 现 这 些 语 义学 的 
应 用 十 非常 困难 的 。 对 这 些 语义 学 的 实现 细 下 并 不 是 本 书 所 讨论 的 内 


二 


jaa 


通信 故障 导致 的 另 一 个 重要 问题 是 对 锁 等 同步 原 语 的 影响 。 因 为 
节点 可 能 月 总 ， 而 系统 也 可 能 网 络 分 区 (network partition) ， 锁 机 制 
也 会 阻止 任务 的 继续 执行 。 因 此 ZooKeeper 也 需要 实现 处 理 这 些 情 况 的 
机 制 。 首 先 ， 客 户 端 可 以 告诉 ZooKeeper 某 些 数据 的 状态 是 临时 状态 

(ephemeral) ; 其 次 ， 同 时 ZooKeeper 需 要 客户 端 定时 发 送 是 否 存活 的 
通知 ， 如 采 一 个 客户 端 未 能 及 时 发 送 通知 ， 那 么 所 有 从 属于 这 个 客户 


端的 临时 状态 的 数据 将 全 部 被 删除 。 通 过 这 两 个 机 制 ， 在 朋 浇 或 通信 
故障 发 生 时 ， 我 们 就 可 以 预防 客户 端 独 立 运行 而 发 生 的 应 用 宕 机 。 


回想 一 下 之 前 讨论 的 内 容 ， 如 果 我 们 不 能 控制 系统 中 的 消息 延 
述 ， 殊 不 能 确定 一 个 客户 端 是 朋 江 还 是 运行 缓慢 ， 因 此 ， 当 我 们 狂 测 
一 个 客户 闪 已 经 骨 浇 ， 而 实际 上 我 们 也 和 需要 假设 客户 剖 仅 仅 是 执行 绥 
慢 ， 其 在 后 续 还 可 能 执行 一 些 其 他 操作 。 


124 任务 总 结 


根据 之 前 描述 的 这 些 ， 我 们 可 以 得 到 以 下 主 - 从 架构 的 需求 : 
ET Ras 
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主 丰 点 必须 具有 检测 从 市 点 月 省 或 失去 连接 的 能 力 。 

组 成 员 关 系 管 理 

主 市 点 必须 具有 知道 哪 一 个 从 节点 可 以 执行 任务 的 能 


元 数据 管理 


主 丰 点 和 从 节操 必须 具有 通过 茶 种 可 靠 的 方式 来 保存 分 配 状 态 和 
执行 状态 的 能 


理想 的 方式 是 ， 以 上 每 一 个 任务 都 需要 通过 原 语 的 方式 紧 露 给 应 
用 ， 对 开发 者 完全 隐藏 实现 细节 。ZooKeeper 提 供 了 实现 这 些 原 语 的 关 
键 机 制 ， 因 此 ， 开 发 者 可 以 通过 这 些 实现 一 个 最 适合 他 们 需求 、 更 加 
关注 应 用 逻辑 的 分 布 式 应 用 。 贯 穿 本 书 ， 我 们 经 常会 涉及 像 主 斑点 选 
举 、 崩 演 检 测 这 些 原 语 任务 的 实现 ， 因 为 这 些 是 建立 分 布 式 应 用 的 具 
体 任务 。 


1.3 ”分 布 式 协 作 的 难点 


当 开 发 分 布 式 应 用 时 ， 其 复杂 性 会 立即 突显 出 来 。 例 如 ， 当 我 们 
的 应 用 局 动 后 ， 所 有 不 同 的 进程 通过 某 种 方法 ， 需 要 知道 应 用 的 配置 
信息 ， 一 段 时 间 之 后 ， 配 置信 息 也 许 发 生 了 变化 ， 我 们 可 以 集 止 所 有 
进程 ， 重 新 分 发 配置 信息 的 文件 ， 然 后 重新 启动， 但 古 重新 配置 束 会 
延长 应 用 的 停机 时 间 。 


与 配置 信息 问题 相关 的 是 组 成 员 关 系 的 问题 ， 当 负载 变化 时 ， 我 
们 希望 增加 或 减少 狐 机 器 和 进程 。 


当 你 目 己 实现 分 布 式 应 用 时 ， 这 个 问题 仅仅 被 措 述 为 功能 性 问 
题 ， 你 可 以 设计 解决 方案 ， 部 署 前 你 测试 了 你 的 解决 方案 ， 并 非常 确 
定 地 认为 你 已 经 正确 解决 了 问题 。 当 你 在 开发 分 布 式 应 用 时 ， 你 融会 
遇 到 真正 困难 的 问题 ， 你 吏 不 得 不 面 对 故 障 ， 如 朋 涡 、 通 信 故 障 等 
种 情况 。 这 些 问 题 会 在 任何 可 能 的 点 突然 出 现 ， 甚 至 无 法 列举 需要 处 
理 的 所 有 的 情况 。 


注意 : 拜占庭 将 军 问 题 


拜占庭 将 军 问 题 (Byzantine Faults) 是 指 可 能 导致 一 个 组 件 发 生 
任意 行为 〈 常 常 是 意料 之 外 的 ) 的 故障 。 这 个 故障 的 组 件 可 能 会 破坏 


应 用 的 状态 ， 甚 至 是 恶意 行为 。 系 统 是 建立 在 假设 会 发 生 这 些 故障 ， 

需要 更 高 程度 的 复制 并 使 用 安全 原 语 的 基础 上 。 尽 管 我 们 从 学 术 文 献 
中 知道 ， 针 对 拜 占 寿 将 军 问 题 技术 发 展 已 经 取得 了 巨大 进步 ， 我 们 还 
征 觉 得 没有 必要 在 ZooKeeper 中 采用 这 些 技术 ， 因 此 ， 我 们 也 避免 代码 
库 中 引入 额外 的 复 洒 性 。 


在 独立 主机 上 运行 的 应 用 与 分 布 式 应 用 发 生 的 故障 存在 显著 的 区 
All: 在 分 布 式 应 用 中 ， 可 能 会 发 生 局 部 故障 ， 当 独立 主机 般 涡 ， 这 个 
主机 上 运行 的 所 有 进程 都 会 失败 ， 如 采 征 独立 主机 上 运行 多 个 进程 ， 
一 个 进程 执行 的 失败 ， 其 他 进程 可 以 通过 操作 系统 获得 这 个 故障 ， 操 
作 系 统 提供 了 健壮 的 多 进程 消息 通信 的 保障 。 在 分 布 式 环境 中 这 一 切 
发 生 了 改变 如果 一 个 主机 或 进程 发 生 故 障 ， 其 他 主机 继续 运行 ， 并 
会 接管 发 生 故 障 的 进程 ， 为 了 能 够 处 理 故 障 进程 ， 这 些 仍 在 运行 的 进 
程 必须 能 够 检测 到 这 个 故障 ， 无 论 是 消息 丢失 或 发 生 了 时 间 偶 移 。 


理想 的 情况 下 ， 我 们 基于 异步 通信 的 假设 来 设计 系统 ， 即 我 们 使 
用 的 主机 有 可 能 发 生 时 间 偏 移 或 通信 和 故障。 我们 做 出 这 个 假设 古 因为 
这 一 切 的 确 会 发 生 ， 时 间 偏 移 时 常会 发 生 ， 我 们 偶尔 束 会 遇 到 网 络 问 
题 ， 甚 至 更 不 乎 的， 发 生 故 障 。 我 们 可 以 做 什么 样 的 限制 呢 ? 


我 们 来 看 一 个 最 简单 的 情况 。 假 设 我 们 有 一 个 分 布 式 的 配置 信息 
发 生 了 改变 ， 这 个 配置 信息 简单 到 仅仅 只 有 一 个 比特 位 (bit) , 一旦 


所 有 运行 中 的 进程 对 配置 位 的 值 达成 一 致 ， 我 们 应 用 中 的 进程 融 可 以 
JAZ ° 


这 个 例子 原本 是 一 个 在 分 布 式 计算 领域 非常 著名 的 定律 ， 被 称 为 
FLP (由 其 作者 命名 : Fischer, Lynch, Patterson) ， 这 个 结论 证 明了 
竺 异步 通信 的 分 布 式 系统 中 ， 进 程 崩 浇 ， 所 有 进程 可 能 无 法 在 这 个 比 
特 位 的 配置 上 达成 一 致 踢 。 类 似 的 定律 称 为 CAP， 表 示 一 致 性 
(Consistency) 、 可 用 性 (Availability) 和 分 区 容错 性 (Partition- 
tolerance) ， 该 定律 指出 ， 当 设计 一 个 分 布 式 系统 时 ， 我 们 希望 这 三 
种 属性 全 部 满足 ， 但 没有 系统 可 以 同时 满足 这 三 种 属性 六。 因此 
ZooKeeper 的 设计 尽 可 能 满足 一 致 性 和 可 用 性 ， 当 然 ， 在 发 生 网 络 分 区 


时 ZooKeeper 也 提供 了 只 读 能 力 。 


因此 ， 我 们 无 法 拥有 一 个 理想 的 故障 容错 的 、 分 布 式 的 、 真 实 环 
境 存 在 的 系统 来 处 理 可 能 发 生 的 所 有 问题 。 但 我 们 还 是 可 以 争取 一 个 
稍微 不 那么 宏伟 的 目标 。 首先 ， 我 们 只 好 对 我 们 的 假设 或 目标 适当 放 
松 ， 例 如 ， 我 们 可 以 假设 时 钟 在 某 种 范围 内 是 同步 的 ， 我 们 也 可 以 牺 
牲 一 些 网 络 分 区 容错 的 能 力 并 认为 其 一 直 是 一 致 的 ， 当 一 个 进程 运行 
中 ， 也 许多 次 因 无 法 确定 系统 中 的 状态 而 被 认为 已 经 发 生 故 障 。 虽 然 
这 些 是 一 些 折 中 方案 ， 而 这 些 折 中 方案 允许 我 们 建立 一 些 印 象 非常 深 
刻 的 分 布 式 系统 。 
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1.4 ZooKeeper 的 成 功 和 注意 事项 


不 得 不 指出 ， 完 美的 解决 方案 是 不 存在 的 ， 我 们 重申 ZooKeeper 无 
法 解决 分 布 式 应 用 开发 者 面 对 的 所 有 问题 ， 而 是 为 开发 者 提供 了 一 个 
优雅 的 框架 来 处 理 这 些 问 题 。 多 年 以 来 ，ZooKeeper 在 分 布 式 计算 领域 
进行 了 大 量 的 工作 。Paxos 算 法 趾 和 虚拟 同步 技术 (virtual 
synchrony) 上 给 ZooKeeper 的 设计 带 来 了 很 大 影响 ， 通 过 这 些 技术 可 
以 无 颖 地 处 理 所 发 生 的 某 些 变化 或 情况 ， 并 提供 给 开发 者 一 个 框 狠 ， 
来 应 对 无 法 目 动 处 理 的 某 些 情况 。 


ZooKeeper 最 初 由 雅虎 研究 院 开发 ， 用 于 处理 大 量 的 大 型 分 布 式 应 
用 。 我 们 注意 到 ， 这 些 应 用 在 分 布 式 协作 方面 的 处 理 方式 并 不 妥当 ， 
这 些 系统 的 部 署 存在 单 点 故障 问题 或 很 脆弱 ， 男 一 方面 ， 开 发 者 在 分 
布 式 协作 方面 花费 了 大 量 的 时 间 和 精力 ， 导 致 开发 者 没有 足够 的 资源 
来 天 注 应 用 本 里 的 功能 逻辑 。 我 们 还 注意 到 ， 这 些 应 用 都 在 基本 协作 
方面 有 相同 的 需求 。 因此， 我 们 开始 着手 设计 一 套 通 用 的 解决 方案 ， 
通过 某 些 关 键 点 让 我 们 可 以 一 次 实现 束 能 应 用 于 大 多 数 不 同 的 应 用 
中 。ZooKeeper 已 经 被 证 实 更 加 通用 ， 其 受 欢 迎 程度 超越 了 我 们 的 想 
B o 


多 年 来 ， 我 们 发 现 人 们 可 以 很 容易 地 部 署 ZooKeeper 集 群 ， 轻 松 通 
过 这 个 集群 开发 应 用 ， 但 实际 上 ， 在 使 用 ZooKeeper 时 ， 有 些 情况 
ZooKeeper 目 身 无 法 进行 决策 而 十 需要 开发 者 目 己 做 出 决策 ， 有 些 开发 
者 并 不 完全 了 解 这 些 。 编 写本 书 的 其 中 一 个 目的 吏 是 让 开发 者 了 解 如 
何 更 有 效 地 使 用 ZooKeeper， 以 及 为 什么 需要 这 样 做 。 


[1] Leslie Lamport.“The Part-Time Parliament.” ACM Transactions on 
Computer Systems, 16: 2 (1998) : 133-169. 
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第 2 章 “了解 ZooKeeper 


前 一 草 从 较 高 的 层面 讨论 了 分 布 式 应 用 的 需求 ， 同 时 也 讨论 了 在 
协作 方面 的 共性 需求 。 我 们 以 实际 应 用 中 使 用 很 广泛 的 主 -从 架构 
(master-worker) 为 例子 ， 从 中 摘 取 了 一 些 常 用 原 语 。 本 章 将 开始 讨 
论 ZooKeeper， 看 一 看 这 个 服务 如 何 实现 这 些 协作 方面 的 原 语 。 


2.1 ZooKeeper 基 础 


很 多 用 于 协作 的 原 语 常常 在 很 多 应 用 之 间 共 享 ， 因 此 ， 设 计 一 个 
用 于 协作 需求 的 服务 的 方法 往往 是 提供 原 语 列表 ， 姑 露出 每 个 原 语 的 
实例 化 调用 方法 ， 并 直接 控制 这 些 实例 。 比 如 ， 我 们 可 以 说 分 布 式 锁 
机 制 组 成 了 一 个 重要 的 原 语 ， 同 时 暴露 出 创建 (create) 、 获 取 
(acquire) 和 释放 (release) 三 个 调用 方法 。 


这 种 设计 存在 一 些 重大 的 缺陷 .前 先 ， 我们 要 么 预 完 提出 一 份 详 
尽 的 原 语 列表 ， 要 么 提供 API 的 扩展 ， 以 便 引 入 新 的 原 语 ， 其 次 ， 以 这 
种 方式 实现 原 语 的 服务 使 得 应 用 展 失 了 灵活 性 。 


因此 ， 在 ZooKeeper 中 我 们 丈 辟 熙 径 。ZooKeeper 并 不 直接 又 露 原 
语 ， 取 而 代 之 ， 它 又 露 了 由 一 小 部 分 调用 方法 组 成 的 类 似 文件 系统 的 
API， 以 便 允 许 应 用 实现 自己 的 原 语 。 我 们 通常 使 用 菜谱 (recipes) 来 
表示 这 些 原 语 的 实现 。 菜 谱 包 括 ZooKeeper 操 作 和 维护 一 个 小 型 的 数据 
节点 ， 这 些 世 点 被 称 为 znode， 采 用 类 似 于 文件 系统 的 层级 树 状 结构 进 
行 管理 。 图 2-1 插 述 了 一 个 znode 树 的 结构 ， 根 三 点 包含 4 个 子 节 点 ， 其 
中 二 个子 节 扩 拥 有 下 一 级 记 后 ， 叶 子 市 尽 存 储 了 数据 信息 。 


foo.com:2181 | /workers/worker-1 
run cmd; /tasks/task-1-2 


/assign 


es /assign/worker-1 


run cmd; | /assign/worker-1/task-1-1 


图 2-1: ZooKeeper 数 据 树 结构 示例 


针对 一 个 znode， 没 有 数据 常常 表达 了 重要 的 信息 。 比 如 ， 在 主 -从 
模式 的 例子 中 ， 主 市 点 的 znode 没 有 数据 ， 表 示 当 前 还 没有 选举 出 主 市 
点 。 而 图 2-1 中 涉及 的 一 些 其 他 znode 节 点 在 主 - 从 模式 的 配置 中 非常 有 
用 : 


/workers 六 点 作为 父 六 点， 其 下 每 个 znode 子 六 点 保存 了 系统 中 一 
个 可 用 从 布点 信息 。 如 图 2-1 所 示 ， 有 一 个 从 和 点 (foot.com: 


2181) 。 


/tasks 广 点 作为 父 节 点 ， 其 下 每 个 znode 子 广 点 保存 了 所 有 已 经 创 
建 并 等 竺 从 节点 执行 的 任务 的 信息 ， 主 -从 模式 的 应 用 的 客户 端 在 /tasks 


下 添加 一 个 znode 子 节点 ， 用 来 表示 一 个 新 任务 ， 并 等 待 任务 状态 的 


znode {i Ñ, ° 


/assisn MEAT, FR BED znode fT MRE T BC EISE SS 
MTR MEZER, SEND RAR RTA AER, w 
会 在 /assign 下 增加 一 个 子 节 点 。 


2.1.1 APT 


Znode 节 点 可 能 含有 数据 ， 也 可 能 没有 。 如 果 一 个 znode 节 点 包含 任 
何 数据 ， 那 么 数据 存储 为 字 节 数组 (byte array) 。 字 节 数 组 的 具体 格 
式 特 定 于 每 个 应 用 的 实现 ，ZooKeeper 并 不 直接 提供 解析 的 支持 。 我 们 
可 以 使 用 如 Protocol Buffers、Thrift、Avro 或 MessagePack 等 序列 化 
(Serialization) 包 来 方便 地 处 理 保存 于 znode 节 点 的 数据 格式 ， 不 过 有 
些 时 候 ， 以 UTF-8 或 ASCII 编 码 的 字符 串 已 经 够 用 了 。 


ZooKeeper 的 API 又 露 了 以 下 方法 : 

create/path data 

创建 一 个 名 为 /path 的 znode 节 点 ， 并 包含 数据 data。 
delete/path 


删除 名 为 /path 的 znode ° 


exists/path 


检查 是 否 存 在 名 为 /path 的 节点 。 
setData/path data 

设置 名 为 /path 的 znode 的 数据 为 data ° 
getData/path 

返回 名 为 /path 世 点 的 数据 信息 。 
getChildren/path 

返回 所 有 /path 世 点 的 所 有 子玉 点 列表 。 


需要 注意 的 是 ，ZooKeeper 并 不 允许 局 部 写 入 或 读 取 znode 世 点 的 数 
据 。 当 设置 一 个 znode 玉 点 的 数据 或 读 取 时 ，znode 万 点 的 内 容 会 被 整个 
替换 或 全 部 恋 取 进来 。 


ZooKeeper 客 户 端 连 接 到 ZooKeeper 服 务 ， 通 过 API 调 用 来 建立 会 话 
(session) 。 如 果 你 对 如 何 使 用 ZooKeeper 非 常 感 兴趣 ， 请 跳 转 到 后 面 
的 “会 话 ” 一 节 ， 在 那 一 节 会 讲解 如 何 通 过 命令 行 的 方式 来 运行 


ZooKeeper 指 令 。 


2.1.2 ”znode 的 不 同类 型 


当 新 建 znode 时 ， 还 需要 指定 该 节点 的 类 型 (mode) ， 不 同 的 类 型 
决定 了 znode 世 点 的 行为 方式 。 


持久 市 点 和 临时 节点 


znode 节 点 可 以 是 持久 (persistent) 节点 ， 还 可 以 是 临时 
(ephemeral) 节点 。 持 久 的 znode， 如 /path， 只 能 通过 调用 delete 来 进 
行 删除 。 临 时 的 znode 与 之 相反 ， 当 创建 该 节点 的 客户 端 月 误 或 关闭 了 
与 ZooKeeper 的 连 搂 时 ， 这 个 万 点 就 会 被 删除 。 


持久 znode 是 一 种 非常 有 用 的 znode， 可 以 通过 持久 类 型 的 znode 为 
应 用 保存 一 些 数据 ， 即 使 znode 的 创建 者 不 再 属于 应 用 系统 时 ， 数 据 也 
可 以 保存 下 来 而 不 丢失 。 例 如 ， 在 主 - 从 模式 例子 中 ， 需 要 保存 从 和 点 
的 任务 分 配 情况 ， 即 使 分 配 任务 的 主 世 点 已 经 月 溃 了。 


临时 znode 传 达 了 应 用 某 些 方面 的 信息 ， 仅 当 创 建 者 的 会 话 有 效 时 
这 些 信息 必须 有 效 保存 。 例 如 ， 在 主 从 模式 的 例子 中 ， 当 主 节 点 创建 
的 znode 为 临时 节点 时 ， 该 节点 的 存在 意味 着 现在 有 一 个 主 节 点 ， 且 主 
节点 状态 处 于 正常 运行 中 。 如 果 主 znode 消 失 后 ， 该 znode 世 点 仍然 存 
在 ， 那 么 系统 将 无 法 监测 到 主 世 点 朋 涡 。 这 样 殉 可 以 阻止 系统 继续 进 
行 ， 因 此 这 个 znode 需 要 和 主 节 点 一 起 消失 。 我 们 也 在 从 节点 中 使 用 临 
时 的 znode， 如 果 一 个 从 节点 失效 ， 那 么 会 话 将 会 过 期 ， 之 后 
znode/workers 也 将 目 动 消失 。 


一 个 临时 znode， 在 以 下 两 种 情况 下 将 会 被 删除 
1. 当 创建 该 znode 的 客户 端的 会 话 因 超 时 或 主动 关闭 而 中 止 时 。 
2. 当 某 个 客户 端 (不 一 定 是 创建 者 ) 主动 删除 该 节点 时 。 


因为 临时 的 znode 在 其 创建 者 的 会 话 过 期 时 被 删除 ， 所 以 我 们 现在 
不 允许 临时 节点 拥有 子 节点 。 在 社区 讨论 中 ， 已 经 讨论 过 关于 允许 临 
时 znode 拥 有 子 广 扩 的 问题 ， 其 想法 古 使 其 子 广 上 护 也 均 为 临时 蔬 点 。 这 
个 功能 也 许 会 出 现在 未 来 的 发 布 版 本 中 ， 但 现在 还 十 不 可 用 的 。 


AETA 


一 个 znode 还 可 以 设置 为 有 序 (sequential) 万 点 。 一 个 有 序 znode 节 
点 被 分 配 唯 一 个 单调 递增 的 整数 。 当 创建 有 序 世 点 时 ， 一 个 序号 会 被 
追加 到 路 径 之 后 。 例 如 ， 如 果 一 个 客户 端 创建 了 一 个 有 序 znode 下 点 ， 
其 路 径 为 /tasks/task-， 那 么 ZooKeeper 将 会 分 配 一 个 序号 ， 如 1， 并 将 这 
个 数字 追加 到 路 径 之 后 ， 最 后 该 znode 闻 点 为 /tasks/task-1。 有 序 znode 通 
过 提供 了 创建 具有 唯一 名 称 的 znode 的 简单 方式 。 同 时 也 通过 这 种 方式 
可 以 直观 地 查看 znode 的 创建 顺序 。 


总 之 ，znode 一 共有 4 种 类 型 : 持久 的 (persistent) 、 临 时 的 
(ephemeral) 、 持 久 有 序 的 (persistent_sequential) 和 临时 有 序 的 


(ephemeral_sequential) 。 


2.1.3 ”监视 与 通知 


ZooKeeper 通 第 以 远程 服务 的 方式 被 访问 ， 如 果 每 次 访问 znode 时 ， 
客户 端 都 需要 获得 节点 中 的 内 容 ， 这 样 的 代价 就 非常 大 。 因 为 这 样 会 
导致 更 高 的 延迟 ， 而 且 ZooKeeper 需 要 做 更 多 的 操作 。 考 虑 图 2-2 中 的 例 
子 ， 第 二 次 调用 getChildren/tasks 返 回 了 相同 的 值 ， 一 个 空 的 集合 ， 其 

是 没有 必要 的 。 


create /tasks/task-, 
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ientc, Ne 
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getChildren {}  getChildren {} getChildren {task-1} ‘ 
/tasks /tasks /tasks Time 


Client c, 


O 客户 端 C 读 取 任 务 列表 ， 其 初始 值 为 空 。 

Q) 客户 端 C 再 次 读 取 任务 列表 ， 看 是 否 有 新 的 任务 。 
© 客户 端 6. 创 建 了 一 个 新 任务 。 

O 客户 端 C 再 次 读 取 任 务 列表 ， 并 发 现 了 变化 。 


图 2-2: 同一 个 znode 的 多 次 读 取 


这 是 一 个 第 见 的 轮 询问 题 。 为 了 车 换 客 户 问 的 轮 询 ， 我 们 选择 了 
基于 通知 (notification) 的 机 制 : 客户 端 向 ZooKeeper 注 册 需 要 接收 通 
知 的 znode， 通 过 对 znode 设 置 监视 点 (watch) 来 接收 通知 。 监 视点 是 
一 个 单 次 触发 的 操作 ， 意 即 监 视点 会 触发 一 个 通知 。 为 了 接收 多 个 通 
知 ， 客 户 端 必须 在 每 次 通知 后 设置 一 个 新 的 监视 点 。 在 图 2-3 阐 述 的 情 


况 下 ， 当 节点 htasks 发 生变 化 时 ， 客 户 闪 会 收 到 一 个 通知 ， 并 从 


ZooKeeper 读 取 一 个 新 值 。 


create /tasks/task-, 
PERSISTENT SEQUENTIAL 


Client ci — eo o o 


ZooKeeper 
© eo /@ 


getChildren /tasks {} getChildren /tasks {task-1} 
set watch set watch Time 


Client c, 


QO) 客户 端 C 读 取 任务 列表 ， 其 初始 值 为 空 ， 并 设置 一 个 监控 变更 的 监视 点 。 
Q) 当 发 生变 化 时 通知 客户 端 
O 客户 端 C 读 取 /tasks 的 子 节点 ， 以 发 现 新 任务 。 


图 2-3: 使 用 通知 机 制 来 获悉 znode 的 变化 


当 使 用 通知 机 制 时 ， 还 有 一 些 需 要 知道 的 事情 。 因 为 通知 机 制 是 
单 次 触发 的 操作 ， 所 以 在 客户 端 接 收 一 个 znode 变 更 通知 并 设置 新 的 监 
视点 时 ，znode 世 点 也 许 发 生 了 新 的 变化 (不 要 担心 ， 你 不 会 错过 状态 
的 变化 ) 。 让 我 们 看 一 个 例子 来 说 明 它 到 底 是 怎么 工作 的 。 假 设 事件 
按 以 下 顺序 发 生 : 


LAP vic, 设置 监视 点 来 监控 Htasks 数 据 的 变化 。 
2. 客 户 端 c; 连接 后 ， 辐 /tasks 中 添加 了 一 个 新 的 任务 。 


3. 客 户 站 cl 接收 通知 。 


4.72 PF vnc, 设置 新 的 监视 点 ， 在 设置 完成 前 ， 第 三 个 客户 端 cs E 
所 后 ， 同 /tasks 中 深 加 了 一 个 新 的 任务 。 


客户 端 ci 最 终 设置 了 新 的 监视 点 ， 但 由 cs 添加 数据 的 变更 并 没有 
触发 一 个 通知 。 为 了 观察 这 个 变更 ， 在 设置 新 的 监视 点 前 ，ci 实际 上 
需要 读 取 节点 /tasks 的 状态 ， 通 过 在 设置 监视 点 前 读 取 ZooKeeper 的 状 
aS, BEL, cy 束 不 会 错过 任何 变更 。 


通知 机 制 的 一 个 重要 保障 是 ， 对 同一 个 znode 的 操作 ， 先 向 客户 端 
传送 通知 ， 然 后 再 对 该 和 点 进行 变更 。 如 条 客户 疹 对 一 个 znode 设 置 了 
监视 点 ， 而 该 znode 发 生 了 两 个 连续 更 新 。 第 一 次 更 新 后 ， 客 户 端 在 观 
察 第 二 次 变化 前 承接 收 到 了 通知 ， 然 后 读 取 znode 中 的 数据 。 我 们 认为 
主要 特性 在 于 通知 机 制 阻 止 了 客户 端 所 观察 的 更 新 顺序 。 虽 然 
ZooKeeper 的 状态 变化 传播 给 某 些 客户 端 时 更 慢 ， 但 我 们 保障 客户 端 以 
全 局 的 顺序 来 观察 ZooKeeper 的 状态 。 


ZooKeeper 可 以 定义 不 同类 型 的 通知 ， 这 依赖 于 设置 监视 点 对 应 的 
通知 类 型 。 客 户 端 可 以 设置 多 种 监视 点 ， 如 监控 znode 的 数据 变化 、 监 
控 znode 子 节点 的 变化 、 监 控 znode 的 创建 或 删除 。 为 了 设置 监视 点 ， 可 
以 使 用 任何 API 中 的 调用 来 读 取 ZooKeeper 的 状态 ， 在 调用 这 些 API 时 ， 
传 入 一 个 watcher 对 和 象 或 使 用 默认 的 watcher。 本 革 后 续 ( 主 从 模式 的 实 
现 ) 及 第 4 章 会 以 主 从 模式 的 例子 来 展开 讨论 ， 我 们 将 深入 研究 如 何 使 
用 该 机 制 。 


ER: 谁 来 管理 我 的 缓存 


如 果 不 让 客户 端 来 管理 其 拥有 的 ZooKeeper 数 据 的 缓存 ， 我 们 不 得 
不 让 ZooKeeper 来 管理 这 些 应 用 程序 的 缓存 。 但 是 ， 这 样 会 导致 
ZooKeeper 的 设计 更 加 复杂 。 事 实 上， 如 果 让 ZooKeeper 管 理 缓存 失 
效 ， 可 能 会 导致 Zoo0Keeper 在 运行 时 ， 停 请 在 等 待 客户 端 确认 一 个 缓存 
失效 的 请 求 上 ， 因 为 在 进行 所 有 的 写 操作 前 ， 需 要 确认 所 有 的 缓存 数 
据 是 否 已 经 失效 。 


2.1.4 版 本 


每 一 个 znode 都 有 一 个 版 本 号 ， 它 随 着 每 次 数据 变化 而 自 增 。 两 个 
API 操 作 可 以 有 条 件 地 执行 : setData 和 delete。 这 两 个 调用 以 版 本 号 作 
为 转 入 参数 ， 只 有 当 转 入 参数 的 版 本 号 与 服务 右上 的 版 本 号 一 致 时 调 
用 才 会 成 功 。 当 多 个 ZooKeeper 客 户 端 对 同一 个 znode 进 行 操作 时 ， 版 本 
的 使 用 束 会 显得 尤为 重要 。 例 如 ， 假 设 客户 端 cl 对 znode/config 写 入 了 
一 些 配置 信息 ， 如 果 另 一 个 客户 端 c 同时 更 新 了 这 个 znode， 此 时 ci 的 
版 本 号 已 经 过 期 ，ci 调用 setData 一 定 不 会 成 功 。 使 用 版 本 机 制 有 效 避 
免 了 以 上 情况 。 在 这 个 例子 中 ，ci 在 写 入 数据 时 使 用 的 版 本 无 法 匹 
配 ， 使 得 操作 失败 ， 图 2-4 摘 述 了 这 个 情况 。 


setData /config, setData /config， 
Kot Zar 
version is 1 version is 2 Failed! 


Client c, 


Incorrect 
version 


/config 
version=1 


/config 
version=2 


/config 
version=3 
ZooKeeper 


Client c, 


getData /config x, version 2 setData /config, /config 


y if version=3 Time 
version is 2 


Q 客户 端 C 写 入 了 第 一 个 版 本 的 /config。 
Q) 客户 端 C 读 取 /config 并 写 入 了 第 二 个 版 本 。 
G) 客户 端 C 尝 试 对 /config 进 行 写 入 ， 但 因 版 本 号 不 匹配 而 请 求 失败 。 


图 2-4: 使 用 版 本 来 阻止 并 行 操 作 的 不 一 致 性 


2.2 ”ZooKeeper 架 构 


现在 我 们 已 经 讨论 了 ZooKeeper 骏 露 给 应 用 的 高 层 操 作 ， 我 们 需要 
详细 了 解 服务 实际 上 是 如 何 运 行 的 。 应 用 通过 客户 端 库 来 对 ZooKeeper 
实现 了 调用 。 客 户 端 库 负 责 与 ZooKeeper 服 务 器 端 进行 交互 。 


图 2-5 展 示 了 客户 端 与 服务 器 端 之 间 的 关系 。 每 一 个 客户 端 导 
户 端 库 ， 之 后 便 可 以 与 任何 ZooKeeper 的 节点 进行 通信 。 


ZooKeeper 服 务 器 端 运行 于 两 种 模式 下 : 独立 模式 (standalone) 和 
仲裁 模式 (quorum) 。 独 立 模 式 几 乎 与 其 术语 所 描述 的 一 样 : 有 一 个 
单独 的 服务 器 ，ZooKeeper 状 态 无 法 复制 。 在 仲裁 模式 下 ， 具 有 一 组 
ZooKeeper 服 务 器 ， 我 们 称 为 ZooKeeper 集 合 (ZooKeeper ensemble) ， 
它们 之 前 可 以 进行 状态 的 复制 ， 并 同时 为 服务 于 客户 端的 请 求 。 从 这 
个 角度 出 发 ， 我 们 使 用 术语 “ZooKeeper 集 合 "来 表示 一 个 服务 器 设施 ， 

这 一 设施 可 以 由 独立 模式 的 一 个 服务 器 组 成 ， 也 可 以 仲裁 模式 下 的 多 
个 服务 器 组 成 。 
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图 2-5: ZooKeeper 架 构 总 贤 


2.2.1 ZooKeeper 仲 裁 


在 仲裁 模式 下 ，ZooKeeper 复 制 集群 中 的 所 有 服务 器 的 数据 树 。 但 

如 宁 让 一 个 客户 只 等 竺 每 个 服务 右 完 成 数据 保存 后 再 继续 ， 延 迟 问题 
将 无 法 接受 。 在 公共 管理 领域 ， 法 定 人 数 是 指 进行 一 项 投票 所 需 的 立 
法 者 的 最 小 数量 。 而 在 ZooKeeper 中 ， 则 是 指 为 了 使 ZooKeeper 工 作 必 
须 有 效 运行 的 服务 器 的 最 小 数量 。 这 个 数字 也 是 服务 器 告知 客户 端 安 
全 保存 数据 前 ， 需 要 保存 客户 端 数据 的 服务 器 的 最 小 个 数 。 例 如 ， 我 
们 一 共有 5 个 ZooKeeper 服 务 器 ， 但 法 定 人 数 为 3 个 ， 这 样 ， 只 要 任何 3 
TRAE TSE, AP Me ay DRS, A SARA aA HH 
将 捕获 到 数据 ， 并 保存 数据 。 


选择 法 是 人 数 准确 的 大 小 是 一 个 非常 重要 的 事 。 法 定 人 数 的 数量 
需要 保证 不 管 系统 发 生 延 迟 或 月 溃 ， 服 务 主动 确认 的 任何 更 新 请 求 需 
BRT PA, BEA MARINE E © 


为 了 明白 这 到 底 是 什么 意思 ， 让 我 们 先 来 通过 一 个 例子 来 看 看 ， 

如 琳 法 定 人 数 太 小 ， 会 如 何 出 错 。 假 设 有 5 个 服务 句 并 设置 法 是 人 数 为 
2， 现 在 服务 器 s1 Ms, 确认 它们 需要 对 一 个 请 求 创建 的 znode/z 进 行 复 
制 ， 服 务 返回 客户 端 ， 指 出 znode 创 建 完 成 。 现 在 假设 在 复制 新 的 znode 
到 其 他 服务 器 之 前 ， 服 务 器 sl; 和 s, 与 其 他 服务 器 和 客户 端 发 生 了 长 时 
间 的 分 区 隔离 ， 整 个 服务 的 状态 仍然 正常 ， 因 为 基于 我 们 的 假设 设 定 
法 定 人 数 为 2， 而 现在 还 有 3 个 服务 磊 ， 但 这 3 个 服务 亏 将 无 法 发 现 新 的 
znode/z。 因 此 ， 对 创建 节点 /z 的 请 求 是 非 持 久 化 的 。 


这 就 是 第 1 章 中 讲述 的 脑 裂 场 景 的 例子 。 为 了 避免 这 个 问题 ， 这 个 
例子 中 ， 法 定 人 数 的 大 小 必须 至 少 为 3， 即 集合 中 5 个 服务 部 的 多 数 原 
则 。 为 了 能 正常 工作 ， 集 合 中 至 少 要 有 3 个 有 效 的 服务 左 。 为 了 确认 一 
个 请 求 对 状态 的 更 新 是 否 成 功 完 成 ， 这 个 集合 同时 需要 至 少 3 个 服务 器 
确认 已 经 完成 了 数据 的 复制 操作 。 因 此 ， 如 末 要 保证 集合 可 以 正常 工 
作 ， 对 任何 更 新 操作 的 成 功 完成 ， 我 们 至 少 要 有 1 个 有 效 的 服务 郁 来 保 
存 更 新 的 副本 〈 即 至 少 在 一 个 节点 上 合理 的 法 定 人 数 存 在 交集 ) 。 


通过 使 用 多 数 方案 ， 我 们 就 可 以 容许 { 个 服务 器 的 衣 溃 ， 在 这 里 ，f 
为 小 于 集合 中 服务 器 数量 的 一 半 。 例 如 ， 如 果 有 5 个 服务 器 ， 可 以 容许 
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并 ， 因 为 两 个 服务 器 月 浇 就 会 导致 系统 失去 多 数 原则 的 状态 。 因 此 ， 
在 4 个 服务 右 的 情况 下 ， 我 们 仅 能 容许 一 个 服务 右 衣 并 ， 而 法 定 人 数 现 
在 却 更 大 ， 这 意味 着 对 每 个 请 求 ， 我 们 需要 更 多 的 确认 操作 。 底 线 是 
我 们 需要 争取 奇数 个 服务 器 。 


我 们 允许 法 定 人 数 的 数量 不 同 于 多 数 原则 ， 但 这 将 在 后 续 章 市 深 
入 讨论 。 第 10 章 会 讨论 此 问题 。 


222 Sif 


在 对 ZooKeeper 集 合 执行 任何 请 求 前 ， 一 个 客户 端 必须 先 与 服务 建 
立会 话 。 会 话 的 概念 非常 重要 ， 对 ZooKeeper 的 运行 也 非常 关键 。 客 户 
闹 提 交 给 ZooKeeper 的 所 有 操作 均 关联 在 一 个 会 话 上 。 当 一 个 会 话 因 某 
种 原因 而 中 止 时 ， 在 这 个 会 话 期 间 创建 的 临时 节点 将 会 消失 。 


当 客 户 端 通 过 某 一 个 特定 语言 套件 来 创建 一 个 ZooKeeper 句 柄 时 , 
它 就 会 通过 服务 建立 一 个 会 话 。 客 户 端 初 始 连 接 到 集合 中 某 一 个 服务 
器 或 一 个 独立 的 服务 器 。 客 户 端 通过 TCP 协 议 与 服务 器 进 行 连接 并 通 
信 ， 但 当 会 话 无 法 与 当前 连接 的 服务 右 继 续 通信 有 时， 会 话 整 可 能 转移 


到 另 一 个 服务 硼 上 。ZooKeeper 客 户 端 库 透 明 地 转移 一 个 会 话 到 不 同 的 
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会 话 提 供 了 顺序 保障 ， 这 就 意味 着 同一 个 会 话 中 的 请 求 会 以 FIFO 
(先进 先 出 ) 顺序 执行 。 通 常 ， 一 个 客户 端 只 打开 一 个 会 话 ， 因 此 客 
户 疾 请 求 将 全 部 以 FIFO 顺 序 执行 。 如 果 客 户 端 拥 有 多 个 并 发 的 会 话 ， 
FIFO 顺 序 在 多 个 会 话 之 间 未 必 能 够 保持 。 而 即使 一 个 客户 端 中 连贯 的 
会 话 并 不 重 琶 ， 也 未 必 能 够 保证 FIFO 顺 序 。 下 面 的 情况 说 明 如 何 发 生 


这 种 问题 : 


客户 端 建立 了 一 个 会 话 ， 并 通过 两 个 连续 的 异步 调用 来 创建 /tasks 


和 /workers。 


客户 端 创建 另 一 个 会 话 ， 并 通过 异步 调用 创建 /assign 。 


在 这 个 调用 顺序 中 ， 可 能 只 有 /tasks 和 /assign 成 功 创建 了 ， 因 为 第 
一 个 会 话 保持 了 FIFO 顺 序 ， 但 在 跨 会 话 时 就 违反 了 FIFO 顺 序 。 


2.3 ”开始 使 用 ZooKeeper 


开始 之 前 ， 需 要 下 载 ZooKeeper 发 行 包 。ZooKeeper 作 为 Apache 项 
目 托管 到 http://zookeeper.apache.org 。 通 过 下 载 链接 ， 你 会 下 载 到 一 个 
名 字 类 似 zookeepe-3.4.5.tar.gz 的 压缩 TAR 格 式 文件 。 在 Linux、Mac OS 
X 或 任何 其 他 类 UNIX 系 统 上 ， 可 以 通过 一 下 命令 解压 缩 发 行 包 : 


# tar -xvzf zookeeper-3.4.5.tar.gz 


如 果 使 用 Windows， 可 以 使 用 如 WinZip 等 解压 缩 工 具 来 解压 发 行 
re 


在 发 行 包 (distribution) 的 目录 中 ， 你 会 发 现在 bin 目 录 中 有 启动 
ZooKeeper 的 脚本 。 以 .sh 结尾 的 脚本 运行 于 UNIX 平 台 (Linux、Mac OS 
X 等 ) ， 以 .cmd 结 尾 的 脚本 则 用 于 Windows。 在 conf 目 录 中 保存 配置 文 
件 。]ib 目 录 包 括 Java 的 JAR 文 件 ， 它 们 是 运行 ZooKeeper 所 需要 的 第 三 
方 文件 。 稍 后 我 们 需要 引用 ZooKeeper 解 压缩 的 目录 。 我 们 以 
{PATH_TO_ZK} 方 式 来 引用 该 目录 。 


2.3.1 ”第 一 个 ZooKeeper 会 话 


首先 我 们 以 独立 模式 运行 ZooKeeper 并 创建 一 个 会 话 。 要 做 到 这 一 
点 ， 使 用 ZooKeeper 发 行 包 中 bin/ 目 孙 下 的 zkServer 和 zkCli 工 具 。 有 经 验 
的 管理 员 委 名 使 用 这 两 个 工具 来 进行 调试 和 管理 ， 同 时 也 非常 适合 初 
学 者 熟悉 和 了 解 ZooKeeper ° 


假设 你 已 经 下 载 并 解压 了 ZooKeeper 发 行 包 ， 进 入 shell， 变 更 目录 
(cd) 到 项 目 根 目录 下 ， 重 命名 配置 文件 : 


# mv conf/zoo_sample.cfg conf/zoo.cfg 


虽然 是 可 选 的 ， 最 好 还 是 把 data 目 录 移 出 /tmp 目 录 ， 以 防止 
ZooKeeper 填 满 了 根 分 区 (root partition) 。 可 以 在 zoo.cfg 文 件 中 修改 这 
个 目录 的 位 置 。 


dataDir=/users/me/zookeeper 


最 后 ， 为 了 局 动 服务 器 ， 执 行 以 下 命令 


# bin/zkServer.sh start 

JMX enabled by default 

Using config: ../conf/zoo.cfg 
Starting zookeeper ... STARTED 
# 


这 个 服务 器 命令 使 得 ZooKeeper 服 务 器 在 后 台中 运行 。 如 果 在 前 人 台 


中 运行 以 便 得 看 服务 郁 的 输出 ， 可 以 通过 以 下 命令 运行 : 


# bin/zkServer.sh start-foreground 


这 个 选项 提供 了 大 量 详细 信息 的 输出 ， 以 便 允 许 碍 看 服务 右 发 生 
TA? 


现在 我 们 准备 启动 客户 端 。 在 男 一 个 shell 中 进入 项 目 根 目录 ， 运 
行 以 下 命令 


# bin/zkCli.sh 


<some omitted output> 


2012-12-06 12:07:23,545 [myid:] - INFO [main:ZooKeeper@438] -® 


Initiating client connection, connectString=localhost:2181 
sessionTimeout=30000 watcher=org.apache.zookeeper. 
ZooKeeperMain$mMyWatcher@2c641e9a 

Welcome to ZooKeeper! 

2012-12-06 12:07:23,702 [myid:] - INFO [main-SendThread®@ 


(localhost: 2181) :ClientCnxn$SendThread@966] - Opening 
socket connection to server localhost/127.0.0.1:2181. 
Will not attempt to authenticate using SASL (Unable to 
locate a login configuration) 

JLine support is enabled 

2012-12-06 12:07:23,717 [myid:] - INFO [main-SendThread® 


(localhost: 2181) :ClientCnxn$SendThread@849] - Socket 
connection established to localhost/127.0.0.1:2181, initiating 
session [zk: localhost:2181(CONNECTING) 0] 

2012-12-06 12:07:23,987 [myid:] - INFO [main-SendThread@ 


(localhost: 2181) :ClientCnxn$SendThread@1207] - Session 


establishment complete on server localhost/127.0.0.1:2181, 
sessionid = 0x13b6fe376cd0000, negotiated timeout = 30000 
WATCHER: : 

WatchedEvent state:SyncConnected type:None path:null® 


(客户 端 局 动 程序 来 建立 一 个 会 话 。 


客户 端 党 斌 连接 到 ]ocalhost/127.0.0.1: 2181 ° 


(3) 客 户 端 连接 成 功 ， 服 务 器 开始 初始 化 这 个 新 会 话 。 


会 话 初 始 化 成 功 完 成 。 


(服务 器 同 客 户 端 发 送 一 个 SyncConnected 事 件 。 


让 我 们 来 看 一 看 这 些 输出 。 有 很 多 行 告诉 我 们 各 种 各 样 的 环境 
量 的 配置 以 及 客户 端 使 用 了 什么 JAR 包 “。 我 们 在 例子 中 忽略 这 些 信息 
关注 会 话 的 建立 ， 但 你 可 以 花 时 间 来 分 析 所 有 屏幕 的 输出 信息 。 


在 输出 的 结尾 ， 我 们 看 到 会 话 建立 的 日 志 消息 。 第 一 处 提 
到 “Initiating client connection.”。 消 息 本 吴 说 明 到 底 发 生 了 什么 ， 而 额 
外 的 重要 细节 说 明了 客户 端 党 试 连接 到 客户 端 发 送 的 连接 串 
localhost/127.0.0.1: 2181 中 的 一 个 服务 絮 。 这 个 例子 中 ， 字 符 串 只 包含 
了 localhost， 因 此 指明 了 具体 连接 的 地 址 。 之 后 我 们 看 到 关于 SASL 的 
消息 ， 我 们 暂时 名 略 这 个 消息 ， 随 后 一 个 确认 信息 说 明 客 户 端 与 本 地 


的 ZooKeeper 服 务 器 建立 了 TCP 连 接 。 后 面 的 日 志 信 息 确 认 了 会 话 的 建 
立 ， 并 告诉 我 们 会 话 ID 为 : 0x13b6fe376cd0000。 最 后 客户 端 库 通过 
SyncConncted 事 件 通知 了 应 用 。 应 用 需要 实现 Watcher 对 象 来 处 理 这 个 


事件 。 下 一 下 将 详细 说 明 事 件 。 


为 了 更 加 了 解 ZooKeeper， 让 我 们 列 出 根 (root) 下 的 所 有 znode， 
然后 创建 一 个 znode。 首 先 我 们 要 确认 此 刻 znode 树 为 空 ， 除 了 证 
点 /zookeeper 之 外 ， 该 节点 内 标记 了 ZooKeeper 服 务 所 需 的 元 数据 树 。 


WATCHER : : 

WatchedEvent state:SyncConnected type:None path:null 
[zk: localhost:2181(CONNECTED) 0] 1s / 

[zookeeper ] 


现在 发 生 了 什么 ? 我 们 执行 ls/ 后 看 到 这 里 只 有 /zookeeper 玉 点 。 现 
在 我 们 创建 一 个 名 为 /workers 的 znode， 人 确保 如 下 所 示 : 


WATCHER: : 

WatchedEvent state:SyncConnected type:None path:null 
[zk: localhost:2181(CONNECTED) 0] 

[zk: localhost:2181(CONNECTED) 0] 1s / 

[zookeeper ] 

[zk: localhost:2181(CONNECTED) 1] create /workers "" 
Created /workers 

[zk: localhost:2181(CONNECTED) 2] 1s / 

[workers, zookeeper ] 

[zk: localhost:2181(CONNECTED) 3] 


注意 : Znode 数 据 


当 创建 /workers 世 点 后 ， 我 们 指定 了 一 个 空 字符 串 〈"") ， 说 明 我 
们 此 刻 不 布 望 在 这 个 znode 中 保存 数 据 。 然 而 ， 该 接口 中 的 这 个 参数 可 


以 使 我 们 保存 任何 字符 串 到 ZooKeeper 的 节点 中 。 比 如 ， 可 以 幸 
换 "" 为 "workers" 


为 了 完成 这 个 练习 ， 删 除 znode， 然 后 退出 : 


[zk: localhost:2181(CONNECTED) 3] delete /workers 

[zk: localhost:2181(CONNECTED) 4] ls / 

[zookeeper ] 

[zk: localhost:2181(CONNECTED) 5] quit 

Quitting... 

2012-12-06 12:28:18,200 [myid:] - INFO [main-EventThread:ClientCnxn$ 
EventThread@509] - EventThread shut down 

2012-12-06 12:28:18,200 [myid:] - INFO [main:ZooKeeper@684] - Session: 
Ox13b6fe376cd0000 closed 


观察 到 znode/workers 已 经 被 删除 ， 并 且 会 话 现 在 也 关闭 。 为 了 完 
成 最 后 的 清理， 退出 ZooKeeper 服 务 怖 : 


# bin/zkServer.sh stop 

JMX enabled by default 

Using config: ../conf/zoo.cfg 
Stopping zookeeper ... STOPPED 
# 


2.3.2 ”会 话 的 状态 和 声明 周期 


会 话 的 生命 周期 (lifetime) 是 指 会 话 从 创建 到 结束 的 时 期 ， 无 论 
会 话 正 单 关 闭 还 是 因 超时 而 导致 过 期 。 为 了 讨论 在 会 话 中 发 生 了 什 
么 ， 我 们 需要 考虑 会 话 可 能 的 状态 ， 以 及 可 能 导致 会 话 状 态 改 变 的 事 
人 


一 个 会 话 的 主要 可 能 状态 大 多 是 简单 明了 的 : CONNECTING ` 
CONNECTED、CLOSED 和 NOT_CONNECTED。 状 态 的 转换 依赖 于 发 
生 在 客户 端 与 服务 之 间 的 各 种 事件 ( 见 图 2-6) ° 


NOT_CONNECTED © CONNECTING fo | CONNECTED ©, CLOSED 


© 


图 2-6: 状态 及 状态 的 转换 


一 个 会 话 从 NOT_CONNECTED 状 态 开 始 ， 当 ZooKeeper 窜 户 端 初 
台 化 后 转换 到 CONNECTING 状 态 〈 图 2-6 中 的 箭头 1) 。 正 常情 况 下 ， 
成 功 与 ZooKeeper 服 务 器 建立 连接 后 ， 会 话 转 换 到 CONNECTED 状 态 
(箭头 2) 。 当 客户 端 与 ZooKeeper 服 务 器 断 开 连接 或 者 无 法 收 到 服务 
器 的 响应 时 ， 它 就 会 转换 回 CONNECTING 状 态 (87243) 并 尝试 发 现 
其 他 ZooKeeper 服 务 器 。 如 果 可 以 发 现 另 一 个 服务 器 或 重 连 到 原来 的 服 
务 右 ， 当 服务 器 确认 会 话 有 效 后 ， 状 态 又 会 转换 回 CONNECTED 状 
态 。 否 则 ， 它 将 会 声明 会 话 过 期 ， 然 后 转换 到 CLOSED 状 态 (箭头 
4) 。 应 用 也 可 以 显 式 地 关闭 会 话 〈 箭 头 4 和 箭头 5) 。 


注意 : 发 生 网 络 分 区 时 等 待 CONNECTING 


如 果 一 个 客户 端 与 服务 器 因 超时 而 断 开 连接 ， 客 户 端 仍然 保持 
CONNECTING 状 态 。 如 有 果 因 网 络 分 区 问题 导致 客户 端 与 ZooKeeper 集 
合 被 隔离 而 发 生 连 接 断 开 ， 那 么 其 状态 将 会 一 直 保 持 ， 直 到 显 式 地 天 
闭 这 个 会 话 ， 或 者 分 区 问题 修复 后 ， 客 户 端 能 够 获悉 ZooKeeper 服 务 句 
发 送 的 会 话 已 经 过 期 。 发 生 这 种 行为 是 因为 ZooKeeper 集 合 对 声明 会 话 
超时 负责 ， 而 不 是 客户 端 负责 。 直 到 客户 端 获 悉 ZooKeeper 会 话 过 期 ， 
否则 客户 端 不 能 声明 自己 的 会 话 过 期 。 然 而 ， 客 户 端 可 以 选择 关闭 会 
话 。 


创建 一 个 会 话 时 ， 你 需要 设置 会 话 超 时 这 个 重要 的 参数 ， 这 个 参 
数 设 置 了 ZooKeeper 服 务 允 许 会 话 被 声明 为 超时 之 前 存在 的 上 时间。 如 来 
经 过 时 间 t 之 后 服务 接收 不 到 这 个 会 话 的 任何 消息 ， 服 务 束 会 声明 会 话 
过 期 。 而 在 客户 端 侧 ， 如 果 经 过 t3 的 时 间 未 收 到 任何 消息 ， 客 户 端 将 
向 服务 器 发 送 心跳 消息 。 在 经 过 2V3 时 间 后 ，ZooKeeper 客 户 端 开 始 寻 
找 其 他 的 服务 器 ， 而 此 时 它 还 有 W3 时 间 去 寻找 。 


注意 : 客户 端 会 尝试 连接 哪 一 个 服务 器 ? 


在 仲裁 模式 下 ， 客 户 端 有 多 个 服务 器 可 以 连接 ， 而 在 独立 模式 
下 ， 客 户 端 只 能 笑 试 重新 连接 单个 服务 器 。 在 仲裁 模式 中 ， 应 用 需要 
传递 可 用 的 服务 器 列表 给 客户 端 ， 告 知客 户 疾 可 以 连接 的 服务 此 信 息 
PA TEATER” 


当 党 试 连接 到 一 个 不 同 的 服务 器 时 ， 非 常 重要 的 是 ， 这 个 服务 器 
的 ZooKeeper 状 态 要 与 最 后 连接 的 服务 器 的 ZooKeeper 状 态 傈 持 最 新 。 
客户 端 不 能 连接 到 这 样 的 服务 器 : 它 未 发 现 更 新 而 客户 端 却 已 经 发 现 
的 更 新 。ZooKeeper 通 过 在 服务 中 排序 更 新 操作 来 决定 状态 是 否 最 新 。 
ZooKeeper 确 保 每 一 个 变化 相对 于 所 有 其 他 已 执行 的 更 新 是 完全 有 序 
的 。 因 此 ， 如 果 一 个 客户 端 在 位 置 观 察 到 一 个 更 新 ， 它 就 不 能 连接 到 
只 观察 到 i'<i 的 服务 器 上 。 在 ZooKeeper 实 现 中 ， 系 统 根据 每 一 个 更 新 建 
立 的 顺序 来 分 配给 事务 标识 符 。 


图 2-7 描 述 了 在 重 连 情况 下 事务 标识 符 (zkid) 的 使 用 。 当 客户 端 
因 超时 与 sl; 断 开 连接 后 ， 客 户 痢 开始 尝试 连接 s, ， 但 s HIRT AP vito 
所 知 的 变化 。 然 而 ，s3 对 这 个 变化 的 情况 与 客户 站 保持 一 致 ， 所 以 s3 
可 以 安全 连接 。 


zxid = 1 zxid = 2 
Server s, 


Server s, 


Servers, 


Client c, 


Create znode Second server has Last zxid seen 


not seen 1 is 2, OK to connect Time 


not OK to connect. 
Q 客户 端 连接 5,。 
O 客户 端 执行 创建 操作 。 操 作成 功 并 获得 服务 器 分 配 的 zid 1。 
Q) 客户 端 与 5 断 开 连 接 。 
@ 客户 端 关 试 连接 9,， 但 是 服务 器 有 一 个 较 低 的 zid。 
G) 客户 端 尝试 连接 5 并 成 功 。 


图 2-7: 客户 端 重 连 的 例子 


2.3.3 ”ZooKeeper 与 仲裁 模式 


到 目前 为 止 ， 我 们 一 直 基 于 独立 模式 配置 的 服务 器 端 。 如 果 服 务 
aay), ISSR ST, (AMR Saw, BRS RAT 
闭 。 这 非常 不 符合 可 靠 的 协作 服务 的 承诺 。 出 于 可 靠 性 ， 我 们 需要 运 
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幸运 的 是 ， 我 们 可 以 在 一 台 机 器 上 运行 多 个 服务 器。 我 们 仅仅 需 
要 做 的 便 是 配置 一 个 更 复杂 的 配置 文件 。 


为 了 让 服务 器 之 间 可 以 通信 ， 服 务 器 间 需 要 一 些 联系 信息 。 理 论 
上 ， 服 务 器 可 以 使 用 多 播 来 发 现 彼 此 ， 但 我 们 想 让 ZooKeeper 集 合 文 持 
路 多 个 网 络 而 不 是 单个 网 络 ， 这 样 职 可 以 文 持 多 个 集合 的 情况 。 


为 了 完成 这 些 ， 我 们 将 要 使 用 以 下 配置 文件 : 


tickTime=2000 

initLimit=10 

syncLimit=5 

dataDir=./data 
clientPort=2181 

server .1=127.0.0.1:2222:2223 
server .2=127.0.0.1:3333:3334 
server .3=127.0.0.1:4444:4445 


我 们 主要 讨论 最 后 三 行 对 于 servern 项 的 配置 信息 。 其 余 配 置 参 数 
将 会 在 第 10 章 中 进行 说 明 。 


每 一 个 servern 项 指定 了 编号 为 n 的 ZooKeeper 服 务 器 使 用 的 地 址 和 
端口 号 。 每 个 servern 项 通过 冒号 分 隔 为 三 部 分 ， 第 一 部 分 为 服务 器 n 的 
IP 地 址 或 主机 名 (hostname) ， 第 二 部 分 和 第 三 部 分 为 TCP 端 口号 ， 分 

别 用 于 仲裁 通信 和 群 首 选举 。 因 为 我 们 在 同一 个 机 器 上 运行 三 个 服务 
妖 进 程 ， 所 以 我 们 需要 在 每 一 项 中 使 用 不 同 的 端口 号 。 通 常 ， 我 们 在 
不 同 的 服务 器 上 运行 每 个 服务 器 进程 ， 因 此 每 个 服务 器 项 的 配置 可 以 
使 用 相同 的 端口 号 。 


我 们 还 需要 分 别 设置 data 目 录 ， 我 们 可 以 在 命令 行 中 通过 以 下 命令 
来 操作 : 


mkdir z1 
mkdir zi/data 
mkdir z2 
mkdir z2/data 
mkdir z3 
mkdir z3/data 


当局 动 一 个 服务 器 时 ， 我 们 需要 知道 局 动 的 是 哪个 服务 器 。 一 个 
服务 俩 通过 读 取 data 目 孙 下 一 个 名 为 myid 的 文件 来 获取 服务 着 ID 信息 。 
可 以 通过 以 下 命令 来 创建 这 些 文 件 : 

echo 1 > z1/data/myid 


echo 2 > z2/data/myid 
echo 3 > z3/data/myid 


SRA, ARA-ari He Be CPE dataDire BOR EB data 
目 孙 的 配置 。 它 通过 mydata 获 得 服务 套 ID， 之 后 使 用 配置 文件 中 
server.n 对 应 的 项 来 设置 端口 并 监听 。 当 在 不 同 的 机 占 上 运行 ZooKeeper 
服务 占 进 程 时 ， 它 们 可 以 使 用 相同 的 客户 端 端 口 和 相同 的 配置 文件 。 
但 对 于 这 个 例子 ， 在 一 人 台 服 务 器 上 运行 ， 我 们 需要 上 自 定 义 每 个 服务 器 
的 客户 剖 端 口 。 


因此 ， 首 先 使 用 本 章 之 前 讨论 的 配置 文件 ， 创 建 zl/zl.cfg。 之 后 通 
过 分 别 改 变 客户 端 端 口号 为 2182 和 2183， 创 建 配 置 文件 z2/z2.cfg 和 
Zz3/z3.cfg ° 


现在 可 以 局 动 服务 器 ， 让 我 们 从 zl 开始: 


$ cd z1 
$ {PATH_TO_ZK}/bin/zkServer.sh start ./z1.cfg 


服务 右 的 日 志 记 录 为 zookeeperout。 因 为 我 们 只 局 动 了 三 个 


ZooKeeper 服 务 器 中 的 一 个 ， 所 以 整个 服务 还 无 法 运行 。 在 日 志 中 我 们 
将 会 看 到 以 下 形式 的 记录 : 


. [myid:1] - INFO [QuorumPeer[myid=1]/.. 
. [myid:1] - INFO [QuorumPeer[myid=1]/.. 
New election. My id = 1, proposed zxid=0x0 
. [myid:1] - INFO [WorkerReceiver [myid=1]:FastLeaderElection@542] - 
Notification: 1 ..., LOOKING (my state) 
. [myid:1] - WARN [WorkerSender [myid=1] :QuorumCnxManager@368] - Cannot 
open channel to 2 at election address /127.0.0.1:3334 
Java.net.ConnectException: Connection refused 
at java.net.PlainSocketImpl.socketConnect(Native Method) 
at java.net.PlainSocketImpl.doConnect(PlainSocketImp1l.java:351) 


.12181:QuorumPeer@670] - LOOKING 
.12181:FastLeaderElection@740] - 


XTRA ae EH EE RSs, AM, WRR] 
局 动 男 一 个 服务 上 器， 我 们 可 以 构成 仲裁 的 法 是 人 数 : 


$ cd z2 
$ {PATH_TO_ZK}/bin/zkServer.sh start ./z2.cfg 


如 有 果 我 们 观察 第 二 个 服务 硕 的 日 志 记 录 zookeeperout， 我 们 将 会 
到 : 


. [myid:2] - INFO [QuorumPeer[myid=2]/...:2182:Leader@345] - LEADING 
- LEADER ELECTION TOOK - 279 


. [myid:2] - INFO [QuorumPeer [myid=2]/...:2182:FileTxnSnapLog@240] - 
Snapshotting: 0x0 to ./data/version-2/snapshot.0 


该 日 志 指 出 服务 天 2 已 经 被 选举 为 群 首 。 如 采 我 们 现在 看 看 服务 天 
1 的 日 志 ， 我 们 会 看 到 ; 


... [myid:1] - INFO [QuorumPeer[myid=1]/...:2181:QuorumPeer@738] - 
FOLLOWING 

. [myid:1] - INFO [QuorumPeer [myid=1]/...:2181:ZooKeeperServer@162] - 
Created server ... 

. [myid:1] - INFO [QuorumPeer [myid=1]/...:2181:Follower@63] - FOLLOWING 
- LEADER ELECTION TOOK - 212 


si 
o 


服务 右 1 作 为 服务 器 2 的 追随 者 被 激活 。 我 们 现在 具有 了 符合 法 定 
仲裁 (三 分 之 二 ) 的 可 用 服务 器 


在 此 刻 服务 开始 可 用 。 我 们 现在 需要 配置 客户 端 来 连接 到 服务 
上 。 连 接 字 符 串 需要 列 出 所 有 组 成 服务 的 服务 器 host: port 对 。 对 于 这 
个 例子 ， 连 接 串 为 "127.0.0.1: 2181, 127.0.0.1: 2182, 127.0.0.1: 
2183" (我 们 包含 第 三 个 服务 器 的 信息 ， 即 使 我 们 永远 不 启动 它 ， 因 为 
这 可 以 说 明 ZooKeeper 一 些 有 用 的 属性 ) 。 


我 们 使 用 zkCli.sh 来 访问 集群 : 
$ {PATH_TO_ZK}/bin/zkCli.sh -server 127.0.0.1:2181,127.0.0.1:2182,127.0.0.1:2183 


HERUR, RISEN PERIKA: 


[myid:] - INFO [...] - Session establishment 
complete on server localhost/127.0.0.1:2182 ... 


注意 日 志 消 息 中 的 端口 号 ， 在 本 例 中 的 2182。 如 果 通 过 Ctrl-C 来 停 
止 客户 端 并 重启 多 次 它 ， 我 们 将 会 看 到 端口 号 在 218102182 之 间 来 回 变 
化 。 我 们 也 许 还 会 注意 到 尝试 2183 端 口 后 连接 失败 的 消息 ， 之 后 为 成 
TEE FE TARA arim OA e 


注意 : 简单 的 负载 均衡 


客户 端 以 随机 顺序 连接 到 连接 串 中 的 服务 器 。 这 样 可 以 用 
ZooKeeper 来 实现 一 个 简单 的 负载 均衡 。 不 过 ， 客 户 端 无 法 指定 优先 选 
择 的 服务 器 来 进行 连接 。 例 如 ， 如 果 我 们 有 5 个 ZooKeeper 服 务 器 的 一 
个 集合 ， 其 中 3 个 在 美国 西海 岸 ， 另 外 两 个 在 美国 东海 岸 ， 为 了 确保 客 
Pn AE Be Bl ANH SS ae EF, RAT DA AEE AR E ae A IE BB P 
AMD HARS ae, TE PRE PO EE BR PR a a eA 


AMERA TA Oy IST PAR a AE BY SEE ( 当 
然 ， 在 生产 环境 中 ， 你 需要 在 不 同 的 主机 上 进行 这 些 操作 ) 。 对 于 本 
书 大 部 分 ， 包 括 后 续 几 章 ， 我 们 一 直 以 独立 模式 的 服务 器 进行 开发 ， 
因为 局 动 和 管理 多 个 服务 器 非常 徐 单 ， 实 现 这 个 例子 也 非常 简单 。 除 
了 连接 串 外 ， 客 户 端 不 用 关心 ZooKeeper 服 务 由 多 少 个 服务 器 组 成 ， 这 
也 是 ZooKeeper 的 优点 之 一 。 


2.3.4 ”实现 一 个 原 语 : 通过 ZooKeeper 实 现 锁 


天 于 ZooKeeper 的 功能 ， 一 个 简单 的 例子 殉 是 通过 锁 来 实现 临界 区 
域 。 我 们 知道 有 很 多 形式 的 锁 (如 : 读 / 写 锁 、 全 局 锁 ) ， 通 过 
ZooKeeper 来 实现 锁 也 有 多 种 方式 。 这 里 讨论 一 个 简单 的 方式 来 说 明 应 
用 中 如 何 使 用 ZooKeeper， 我 们 不 再 考虑 其 他 形式 的 锁 。 


假设 有 一 个 应 用 由 n 个 进程 组 成 ， 这 些 进程 莹 试 获取 一 个 锁 。 再 次 
强调 ，ZooKeeper 并 未 直接 又 露 原 语 ， 因 此 我 们 使 用 ZooKeeper 的 接口 
来 管理 znode， 以 此 来 实现 锁 。 为 了 获得 一 个 锁 ， 每 个 进程 p 笑 试 创建 
znode， 名 为 /lock。 如 果 进 程 p 成 功 创建 了 znode， 就 表示 它 获 得 了 锁 并 
可 以 继续 执行 其 临界 区 域 的 代码 。 不 过 一 个 潜在 的 问题 是 进程 p 可 能 崩 
总 ， 导 致 这 个 锁 永 远 无 法 释放 。 在 这 种 情况 下 ， 没 有 任何 其 他 进程 可 
以 再 次 获得 这 个 锁 ， 整 个 系统 可 能 因 死 锁 而 失灵 。 为 了 避 倪 这 种 情 
况 ， 我 们 不 得 不 在 创建 这 个 节点 时 指定 /lock 为 临时 节点 。 


其 他 进程 因 znode 存 在 而 创建 (lock 失败 。 因 此 ， 进 程 监听 /lock 的 变 
化 ， 并 在 检测 到 /lock 删 除 时 再 次 尝试 创建 节操 来 获得 锁 。 当 收 到 /lock 
删除 的 通知 时 ， 如 果 进 程 p 还 需要 继续 获取 锁 ， 它 就 继续 党 试 创建 /lock 
的 步 又 ， 如 果 其 他 进程 已 经 创建 了 ， 就 继续 监听 节点 。 


2.4 一 个 主 -从 模式 例子 的 实现 


本 世 中 我 们 通过 zkCli 工 具 来 实现 主 -从 示例 的 一 些 功能 。 这 个 例子 
仅 用 于 教学 日 的 ， 我 们 不 推荐 使 用 zkCli 工 具 来 搭建 系统 。 使 用 zkCli 的 
目的 仅仅 是 为 了 说 明 如 何 通过 ZooKeeper 来 实现 协作 菜谱 ， 从 而 撒 开 在 
实际 实现 中 所 需 的 大 量 细 市 。 我 们 将 在 下 一 革 中 进入 实现 的 细 廊 。 


主 -从 模式 的 模型 中 包括 三 个 角色 : 


ETR 


FET A ar RSJ AES, DER HAMATA ° 


MIT 
从 节点 会 通过 系统 注册 自己， 以 确保 主 让 点 看 到 它们 可 以 执行 任 
务 ， 然 后 开始 监视 新 任务 


客户 端 创建 新 任务 并 等 待 系统 的 啊 应 。 


现在 探讨 这 些 不 同 的 角色 以 及 每 个 角色 需要 执行 的 确切 步骤 。 


241 节点 角色 


因为 只 有 一 个 进程 会 成 为 主 世 点， 所 以 一 个 进 并 程 成 为 ZooKeeper 的 
主 贡 点 后 必须 锁定 管理 权 。 为 此 ， 进 程 需要 创建 一 个 临时 znode， 和 名 


为 /master: 


[zk: localhost:2181(CONNECTED) 0] create -e /master "master1.example.com:2223"@ 


Created /master 
[zk: localhost:2181(CONNECTED) 1] ls /@ 


[master, zookeeper ] 
[zk: localhost:2181(CONNECTED) 2] get /master® 


"master1.example.com: 2223" 


cZxid = 0x67 
ctime = Tue Dec 11 10:06:19 CET 2012 
mZxid = 0x67 
mtime = Tue Dec 11 10:06:19 CET 2012 


pZxid = 0x67 

cversion = 0 

dataVersion = 0 

aclVersion = 0 

ephemeralOwner = 0x13b891d4c9e0005 
dataLength = 26 

numChildren = 0 

[zk: localhost:2181(CONNECTED) 3] 


QD 创建 主 节点 的 znode， 以 便 获得 管理 权 。 使 用 -e 标 志 来 表示 创建 
的 znode 为 临时 性 的 。 


@) 列 出 ZooKeeper 树 的 根 。 
(3) 获 取 /master znode 的 元 数据 和 数据 。 


刚 四 发 生 了 什么 ?首先 创建 一 个 临时 znode/master。 我 们 在 znode 
中 添加 了 主机 信息 ， 以 便 ZooKeeper 外 部 的 其 他 进程 需要 与 它 通信 。 添 
加 主机 信息 并 不 是 必需 的 ， 但 这 样 做 仅仅 是 为 了 说 明 我 们 可 以 在 需要 
时 添加 数据 。 为 了 设置 znode 为 临时 性 的 ， 需 要 添加 -e 标 志 。 记 得 ,一 
个 临时 节点 会 在 会 话 过 期 或 天 闭 时 目 动 被 删除 。 


现在 让 我 们 看 下 我 们 使 用 两 个 进程 来 获得 主 节 点 角色 的 情况 ， 尽 
管 在 任何 时 刻 最 多 只 能 有 一 个 活动 的 主 节 点 ， 其 他 进程 将 成 为 备份 主 
节操 。 假 如 其 他 进程 不 知道 已 经 有 一 个 主 市 点 被 选举 出 来 ， 并 壬 试 创 
建 一 个 /master 节 点 。 让 我 们 看 看 会 发 生 什么 : 


[zk: localhost:2181(CONNECTED) 0] create -e /master "master2.example.com: 2223" 
Node already exists: /master 
[zk: localhost:2181(CONNECTED) 1] 


ZooKeeper 告 诉 我 们 一 个 /master 世 点 已 经 人 存在。 这样， 第 二 个 进程 
就 知道 已 经 存在 一 个 主 节点 。 然 而 ， 一 个 活动 的 主 节 扩 可 能 会 朋 并 ， 
备份 主 世 点 需要 接替 活动 主 世 点 的 角色 。 为 了 检测 到 这 些 ， 需 要 
在 /masterT 点 上 设置 一 个 监视 点 ， 操 作 如 下 : 


[zk: localhost:2181(CONNECTED) ©] create -e /master "master2.example.com: 2223" 
Node already exists: /master 
[zk: localhost:2181(CONNECTED) 1] stat /master true 


cZxid = 0x67 
ctime = Tue Dec 11 10:06:19 CET 2012 
mZxid = 0x67 
mtime = Tue Dec 11 10:06:19 CET 2012 
pZxid = 0x67 


cversion = 0 

dataVersion = 0 

aclVersion = 0 

ephemeralOwner = 0x13b891d4c9e0005 
dataLength = 

numChildren = 0 

[zk: localhost:2181(CONNECTED) 2] 


stat 命 令 可 以 得 到 一 个 znode 广 点 的 属性 ， 并 允许 我 们 在 已 经 存在 
的 znode 廊 点 上 设置 监视 点 。 通 过 在 路 径 后 面 设置 参数 true 来 添加 监视 
点 。 当 活动 的 主 太 点 崩溃 时 ， 我 们 会 观察 到 以 下 情况 : 


[zk: localhost:2181(CONNECTED) 0] create -e /master "master2.example.com: 2223" 
Node already exists: /master 

[zk: localhost:2181(CONNECTED) 1] stat /master true 

cZxid = 0x67 


ctime = Tue Dec 11 10:06:19 CET 2012 
mZxid = 0x67 
mtime = Tue Dec 11 10:06:19 CET 2012 
pZxid = 0x67 


cversion = 0 

dataVersion = 0 

aclVersion = 0 

ephemeralOwner = 0x13b891d4c9e0005 
dataLength = 

numChildren = 0 

[zk: localhost:2181(CONNECTED) 2] 
WATCHER: : 

WatchedEvent state:SyncConnected type:NodeDeleted path:/master 
[zk: localhost:2181(CONNECTED) 2] ls / 
[zookeeper ] 

[zk: localhost:2181(CONNECTED) 3] 


在 输出 的 最 后 ， 我 们 注意 到 NodeDeleted 事 件 。 这 个 事件 指出 活动 
主 和 点 的 会 话 已 经 关闭 或 过 期 。 同 时 注意 ，/mmasterT 点 已 经 不 存在 
了 。 现 在 备份 主 万 点 通过 再 次 创建 /nasterT 点 来 成 为 活动 主 季 点。 


[zk: localhost:2181(CONNECTED) 0] create -e /master "master2.example.com: 2223" 
Node already exists: /master 


[zk: localhost:2181(CONNECTED) 1] stat /master true 


cZxid = 0x67 
ctime = Tue Dec 11 10:06:19 CET 2012 
mZxid = 0x67 
mtime = Tue Dec 11 10:06:19 CET 2012 


pZxid = 0x67 

cversion = 0 

dataVersion = 0 

aclVersion = 0 

ephemeralOwner = 0x13b891d4c9e0005 

dataLength = 26 

numChildren = 0 

[zk: localhost:2181(CONNECTED) 2] 

WATCHER: : 

WatchedEvent state:SyncConnected type:NodeDeleted path:/master 
[zk: localhost:2181(CONNECTED) 2] ls / 

[zookeeper ] 

[zk: localhost:2181(CONNECTED) 3] create -e /master "master2.example.com: 2223" 
Created /master 

[zk: localhost:2181(CONNECTED) 4] 


AIA £8 it Ea BD AE T /master tR, Hr LASER im oe Be 
为 活动 主 节 后。 


在 我 们 讨论 从 市 点 和 客户 端 所 采取 的 步 又 之 前 ， 让 我 们 先 创建 三 
个 重要 的 父 xznode，/workers、/tasks 和 /assign: 


[zk: localhost:2181(CONNECTED) ©] create /workers "" 
Created /workers 

[zk: localhost:2181(CONNECTED) 1] create /tasks "" 
Created /tasks 

[zk: localhost:2181(CONNECTED) 2] create /assign "" 
Created /assign 

[zk: localhost:2181(CONNECTED) 3] ls / 

[assign, tasks, workers, master, zookeeper ] 

[zk: localhost:2181(CONNECTED) 4] 


这 三 个 新 的 znode 为 持久 性 和 点 ， 且 不 包含 任何 数据 。 本 例 中 ， 通 
过 使 用 这 些 znode 可 以 告诉 我 们 哪个 从 节点 当前 有 效 ， 还 告诉 我 们 当前 


有 任务 需要 分 配 ， 并 癌 从 市 点 分 配 任 务 。 


在 真实 的 应 用 中 ， 这 些 znode 可 能 由 主 进程 在 分 配 任务 前 创建 ， 也 
可 能 由 一 个 引导 程序 创建 ， 不 管 这 些 世 点 是 如 何 创建 的 ， 一 旦 这 些 玫 
点 存在 了 ， 主 节点 就 需要 监视 /workers 和 /tasks 的 子 节 点 的 变化 情况 : 


[zk: localhost:2181(CONNECTED) 4] ls /workers true 
[] 
[zk: localhost:2181(CONNECTED) 5] ls /tasks true 


[] 
[zk: localhost:2181(CONNECTED) 6] 


请 注意 ， 在 主 世 点 上 调用 stat 命 令 前 ， 我 们 使 用 可 选 的 true 人 参数 调 
用 ]s 命 令 。 通 过 true 这 个 参数 ， 可 以 设置 对 应 znode 的 子 节 点 变化 的 监 
视点 。 


2.4.3 MKT RA 


从 节点 首先 要 通知 主 节 点 ， 告 知 从 节点 可 以 执行 任务 。 从 市 点 通 
过 在 /workers 子 蔬 点 下 创建 临时 性 的 znode 来 进行 通知 ， 并 在 子 贡 点 中 
使 用 主机 名 来 标识 目 己 : 


[zk: localhost:2181(CONNECTED) ©] create -e /workers/worker1.example.com 
"worker1.example.com:2224" 

Created /workers/worker1.example.com 

[zk: localhost:2181(CONNECTED) 1] 


注意 ， 输 出 中 ，ZooKeeper 确 认 znode 已 经 创建 。 之 前 主 世 点 已 经 
监视 了 /workers 的 子 下 点 变化 情况 。 一 旦 从 和 点 在 /workers 下 创建 了 一 


个 znode， 主 节点 就 会 观察 到 以 下 通知 信息 : 


WATCHER: : 
WatchedEvent state:SyncConnected type:NodeChildrenChanged path:/workers 


下 一 步 ， 从 和 点 需要 创建 一 个 父 xznode/assing/worker1.example.com 
来 接收 任务 分 配 ， 并 通过 第 二 个 参数 为 true 的 ls 命令 来 监视 这 个 节点 的 
变化 ， 以 便 等 每 新 的 任务 。 


[zk: localhost:2181(CONNECTED) ©] create -e /workers/worker1.example.com 
"worker1.example.com:2224" 

Created /workers/worker1.example.com 

[zk: localhost:2181(CONNECTED) 1] create /assign/worker1.example.com "" 

Created /assign/worker1.example.com 

[zk: localhost:2181(CONNECTED) 2] ls /assign/workeri.example.com true 


[] 
[zk: localhost:2181(CONNECTED) 3] 


从 节点 现在 已 经 准备 就 绪 ， 可 以 接收 任务 分 配 。 之 后 ， 我 们 通过 
讨论 客户 端 角 色 来 看 一 下 任务 分 配 的 问题 。 


2.4.4 窗户 端 角 色 


客户 并 同系 统 中 添加 任务 。 在 本 示例 中 具体 任务 是 什么 并 不 重 
要 ， 我 们 假设 客户 器 请 求 主 从 系统 来 运行 cmd 命 令 。 为 了 同系 统 添 加 
一 个 任务 ， 客 户 端 执行 以 下 操作 


[zk: localhost:2181(CONNECTED) ©] create -s /tasks/task- "cmd" 
Created /tasks/task-0000000000 


我 们 需要 按照 任务 添加 的 顺序 来 添加 znode， 其 本 质 上 为 一 个 队 
列 。 客 户 端 现在 必须 等 待 任务 执行 完毕 。 执 行 任务 的 从 市 点 将 任务 执 
行 完 毕 后 ， 会 创建 一 个 znode 来 表示 任务 状态 。 客 户 端 通过 查看 任务 状 


态 的 znode 是 否 创建 来 确定 任务 是 否 执行 完毕 ， 因 此 客户 端 需要 监视 状 
态 znode 的 创建 事件 : 


[zk: localhost:2181(CONNECTED) 1] ls /tasks/task-0000000000 true 


[] 
[zk: localhost:2181(CONNECTED) 2] 


执行 任务 的 从 节点 会 在 /tasks/task-0000000000 节 点 下 创建 状态 
znode 闻 点， 所 以 我 们 需要 用 ls 命令 来 监视 /tasks/task-0000000000 的 子 


+ 
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一 旦 创建 任务 的 znode， 主 节点 会 观察 到 以 下 事件 : 


[zk: localhost:2181(CONNECTED) 6] 
WATCHER: : 
WatchedEvent state:SyncConnected type:NodeChildrenChanged path:/tasks 


后 会 检查 这 个 新 的 任务 ， 获 取 可 用 的 从 节点 列表 ， 之 后 


之 
分 配 这 个 任务 给 worker1.example.com: 


[zk: 6] ls /tasks 

[task-0000000000 ] 

[zk: 7] ls /workers 

[worker1.example.com] 

[zk: 8] create /assign/worker1.example.com/task-0000000000 "" 


Created /assign/worker1.example.com/task -0000000000 
[zk: 9] 


从 和 点 接收 到 痢 任 务 分 配 的 通知 : 


[zk: localhost:2181(CONNECTED) 3] 

WATCHER: : 

WatchedEvent state:SyncConnected type:NodeChildrenChanged 
path: /assign/worker1.example.com 


从 下 点 之 后 便 开 始 检查 新 任务 ， 并 确认 该 任务 是 否 分 配给 目 己 : 


WATCHER: : 

WatchedEvent state:SyncConnected type:NodeChildrenChanged 

path: /assign/worker1.example.com 

[zk: localhost:2181(CONNECTED) 3] ls /assign/worker1.example.com 
[task-0000000000 ] 

[zk: localhost:2181(CONNECTED) 4] 


一 旦 从 市 点 完成 任务 的 执行 ， 它 束 会 在 /tasks 中 添加 一 个 状态 


znode: 


[zk: localhost:2181(CONNECTED) 4] create /tasks/task-0000000000/status "done" 
Created /tasks/task-0000000000/status 
[zk: localhost:2181(CONNECTED) 5] 
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WATCHER: : 

WatchedEvent state:SyncConnected type:NodeChildrenChanged 
path: /tasks/task -0000000000 

[zk: localhost:2181(CONNECTED) 2] get /tasks/task-0000000000 


"cmd " 

cZxid = QOx7c 

ctime = Tue Dec 11 10:30:18 CET 2012 
mZxid = @x7c 

mtime = Tue Dec 11 10:30:18 CET 2012 
pZxid = 0x7e 


cversion = 1 


dataVersion = 0 

aclVersion = 0 

ephemeralOwner = 0x0 

dataLength = 5 

numChildren = 1 

[zk: localhost:2181(CONNECTED) 3] get /tasks/task-0000000000/status 


"done" 

cZxid = 0x7e 

ctime = Tue Dec 11 10:42:41 CET 2012 
mZxid = 0x7e 

mtime = Tue Dec 11 10:42:41 CET 2012 


pZxid = 0x7e 

cversion = 0 

dataVersion = 0 

aclVersion = 0 

ephemeralOwner = 0x0 

dataLength = 8 

numChildren = 0 

[zk: localhost:2181(CONNECTED) 4] 


客户 端 检查 状态 znode 的 信息 ， 并 确认 任务 的 执行 结 末 。 本 例 中 ， 
我 们 看 到 任务 成 功 执行 ， 其 状态 为 “done”。 当 然 任 务 也 可 能 非常 复 
杂 ， 甚 至 涉及 为 一 个 分 布 式 系统 。 最 终 不 管 是 什么 样 的 任务 ， 执 行 任 
务 的 机 制 与 通过 ZooKeeper 来 传递 结 末 ， 本 质 上 都 是 一 样 的 。 


2.5 Wl 


本 章 中 ， 我 们 了 解 了 许多 基础 的 ZooKeeper 概 念 ， 我 们 看 到 了 
ZooKeeper 通 过 其 API 提 供 的 基本 功能 ， 还 探讨 了 其 架构 中 的 一 些 重要 
概念 ， 如 通过 仲裁 理论 进行 复制 。 此 时 此 刻 ， 最 重要 的 并 不 是 了 解 
ZooKeeper 的 复制 协议 是 如 何 工 作 的 ， 最 重要 的 是 明日 仲裁 理论 的 概 
念 ， 因 为 你 在 部 署 ZooKeeper 时 需要 指定 服务 器 的 数量 。 讨 论 的 男 一 个 
重要 概念 便 是 会 话 。 会 话 的 语义 对 ZooKeeper 的 保障 非常 关键 ， 因 为 它 


们 第 利 会 涉及 会 话 。 


为 了 对 如 何 使 用 ZooKeeper 提 供 初 步 的 了 解 ， 我 们 使 用 zkCli 工 具 
来 访问 ZooKeeper 服 务 器 ， 并 执行 请 求 。 我 们 展示 了 使 用 该 工具 在 主 - 
从 模式 例子 中 的 主要 操作 。 当 实现 一 个 真实 的 ZooKeeper 应 用 时 ， 你 不 
应 该 使 用 这 个 工具 ; 这 个 工具 更 多 地 用 于 调试 和 监控 目的 。 你 需要 使 
用 ZooKeeper 提 供 的 某 一 语言 套件 。 在 下 一 草 中 ， 我 们 将 使 用 Java 来 实 
现 我 们 的 例子 。 


第 二 部 分 ”使 用 ZooKeeper 进 行 开发 


本 书 该 部 分 可 供 程序 员 阅 读 ， 来 学 习 如 何 使 用 ZooKeeper 来 协作 分 
布 式 程序 的 开发 技能 和 正确 方法 。ZooKeeper 提 供 了 Java 语 言 和 C 语 言 
的 API 套 件 ， 这 两 个 套件 拥有 相同 的 基础 结构 和 特性 。Java 套 件 最 流行 
且 简 单 易 用 ， 因 此 相关 例子 中 均 使 用 该 套件 。 第 7 章 会 介绍 C 语 言 套 
件 。 主 -从 模式 例子 的 源 代 码 ， 可 以 从 GitHub 仓 库 
(https//github.com/fpi/zookeeper-book-example) 中 获得 。 


第 3 草 ” 开 始 使 用 ZooKeeper 的 APIi 


在 之 前 的 章节 中 ， 我 们 使 用 zkCli 工 具 介 绍 了 ZooKeeper 的 基本 操 
作 。 从 本 章 开 始 ， 我 们 将 会 看 到 在 应 用 中 如 何 通过 API 来 进行 操作 。 
首先 介绍 一 下 如 何 使 用 ZooKeeper 的 API 进 行 开发 ， 展 示 如 何 创 建 会 
话 ， 实 现 监视 点 (watcher) 。 我 们 还 是 从 主 -从 模式 例子 开始 进行 编 
码 。 


3.1 42 ZooKeeperf\JCLASSPATH 


我 们 需要 设置 正确 的 classpath， 以 便 运 行 或 编译 ZooKeeper 的 Java 
代码 。 除 了 ZooKeeper 的 JAR 包 外 ，ZooKeeper 使 用 了 大 量 的 第 三 方 
库 。 为 了 简化 输入 和 方便 阅读 ， 我 们 使 用 环境 变量 CLASSPATH 来 表示 
所 有 必需 的 库 。ZooKeeper 发 行 包 中 bin 目 录 下 的 zkEnv.sh 脚 本 会 为 我 们 
设置 该 环境 变量 。 我 们 需要 使 用 以 下 方式 来 编码 : 


ZOOBINDIR="<path_to_distro>/bin" 
. "$ZOOBINDIR"/zkEnv.sh 


(在 Windows 上 ， 使 用 call 命 令 调 用 ， 而 不 是 使 用 zkEnvcmd 脚 
本 。) 
一 旦 运行 这 个 脚本 ， 环 境 变 量 CLASSPATH 就 会 正确 设置 。 我 们 在 
编译 和 运行 Java 程 序 时 用 到 它 。 


3.2 ”建立 ZooKeeper 会 话 


ZooKeeper 的 API 围 绕 ZooKeeper 的 句柄 (handle) 而 构建 ， 每 个 API 
调用 都 需要 传递 这 个 句柄 。 这 个 句柄 代表 与 ZooKeeper 之 间 的 一 个 会 
话 。 在 图 3-1 中 ， 与 ZooKeeper 服 务 器 已 经 建立 的 一 个 会 话 如 果断 开 ， 这 
个 会 话 就 会 迁移 到 另 一 台 ZooKeeper 服 务 器 上 。 只 要 会 话 还 存活 着 ， 这 
个 句柄 就 仍然 有 效 ，ZooKeeper 客 户 端 库 会 持续 保持 这 个 活跃 连接 ， 以 
保证 与 ZooKeeper 服 务 器 之 间 的 会 话 存 活 。 如 有 果 人 句柄 关闭，ZooKeeper 
客户 端 库 会 告知 ZooKeeper 服 务 器 终止 这 个 会 话 。 如 果 ZooKeeper 发 现 
客户 端 已 经 死 掉 ， 怠 会 使 这 个 会 话 无 效 。 如 果 客 户 端 之 后 尝试 重新 连 
接 到 ZooKeeper 服 务 磺 ， 使 用 之 前 无 效 会 话 对 应 的 那个 句柄 进行 连接 ， 
那么 ZooKeeper 服 务 咒 会 通知 客户 端 库 ， 这 个 会 话 已 失效 ， 使 用 这 个 名 
柄 进行 的 任何 操作 都 会 返回 错误 。 


Server 1 Server 2 Server 3 Server 1 Server 2 Server 3 


图 3-1: 会 话 在 两 个 服务 器 之 间 发 生 迁 移 
创建 ZooKeeper 句 柄 的 构造 男 数 如 下 所 示 : 


ZooKeeper ( 
String connectString, 
int sessionTimeout, 
Watcher watcher) 


其 中 : 
connectString 


包含 主机 名 和 ZooKeeper 服 务 絮 的 端口 。 我 们 之 前 通过 zkCli 连 接 
ZooKeeper 服 务 时 ， 已 经 列 出 过 这 些 服务 右 。 


session Timeout 


DP ARfL, Z7\ZooKeeper< F&F wine (a RAT A], Za 
会 声明 会 话 已 死亡 。 目 前 我 们 使 用 15000， 即 15 秒 。 这 束 是 说 如 有 果 
ZooKeeper 与 客户 端 有 15 秒 的 时 间 无 法 进行 通信 ，ZooKeeper 束 会 终止 
客户 端的 会 话 。 需 要 注意 ， 这 个 值 比较 高 ， 但 对 于 我 们 后 续 的 实验 会 
非常 有 用 。ZooKeeper 会 话 一 般 设置 超时 时 间 为 5~10 秒 。 


watcher 


用 于 接收 会 话 事件 的 一 个 对 象 ， 这 个 对 象 需要 我 们 自己 创建 。 因 
为 Wacher 定 义 为 接口 ， 所 以 我 们 需要 目 己 实现 一 个 类 ， 然 后 初始 化 这 


个 类 的 实例 并 传 入 ZooKeeper 的 构造 函数 中 。 客 户 冰 使 用 Watcher 接 口 来 
监控 与 ZooKeeper 之 间 会 话 的 健康 情况 。 与 ZooKeeper 服 务 器 之 间 建 立 
或 失去 连接 时 就 会 产生 事件 。 它 们 同样 还 能 用 于 监控 ZooKeeperM 数 据 的 
变化 。 最 终 ， 如 果 与 ZooKeeper 的 会 话 过 期 ， 也 会 通过 Watcher 接 口传 递 
事件 来 通知 客户 端的 应 用 。 


3.2.1 ”实现 一 个 Watcher 


为 了 从 ZooKeeper 接 收 通知 ， 我 们 需要 实现 监视 点 。 首 先 让 我 们 进 
一 步 了 解 Watcher 接 口 ， 该 接口 的 定义 如 下 : 


public interface Watcher { 
void process(WatchedEvent event); 


这 个 接口 没有 多 少 内 容 ， 我 们 不 得 不 目 己 实现 ， 但 现在 我 们 只 坪 
人 简单 地 输出 事件 。 所 以 ， 让 我 们 从 一 个 名 为 Master 的 类 开始 实现 示例 : 


import org.apache.zookeeper .ZooKeeper; 
import org.apache.zookeeper.Watcher; 
public class Master implements Watcher { 
ZooKeeper zk; 
String hostPort; 
Master(String hostPort) { 
this.hostPort = hostPort;©® 


} 
void startzK() { 
zk = new ZooKeeper(hostPort, 15000, this);® 


} 
public void process(WatchedEvent e) { 
System.out.printin(e);® 


public static void main(String args[]) 
throws Exception 
Master m = new Master(args[0]); 
m.startZK(); 
// wait for a bit 
Thread.sleep( 60000) ; @ 


在 构造 函数 中 ， 我 们 并 未 实例 化 ZooKeeper 对 象 ， 而 是 移 保 存 
hostPort 留 大 后 面 使 用 。Java 最 佳 实践 告诉 我 们 ， 一 个 对 象 的 构造 钞 数 
没有 人 完成 前 不 要 调用 这 个 对 象 的 其 他 方法 。 因 为 这 个 对 和 象 实现 了 
Watcher， 并 且 当 我 们 实例 化 ZooKeeper 对 象 时 ， 其 Watcher 的 回调 函数 
就 会 被 调用 ， 所 以 我 们 需要 Master 的 构造 函数 返回 后 再 调用 ZooKeeper 
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@) 使 用 Master 对 象 来 构造 ZooKeeper 对 象 ， 以 便 添 加 Watcher 的 回调 


9) 这 个 简单 的 示例 没有 提供 复杂 的 事件 处 理 逻 辑 ， 而 只 是 将 我 们 
收 到 的 事件 进行 商 单 的 输出 。 


出 我 们 连接 到 ZooKeeper 后 ， 后 台 就 会 有 一 个 线程 来 维护 这 个 
ZooKeeper 会 话 。 该 线程 为 守护 线程 ， 也 束 是 说 线程 即使 处 于 活跃 状 
态 ， 程 序 也 可 以 退出 。 因 此 我 们 在 程序 退出 前 休眠 一 段 时 间 ， 以 便 我 
们 可 以 看 到 事件 的 发 生 。 


通过 以 下 方式 就 可 以 编译 这 个 简单 的 例子 ， 


$ javac -cp $CLASSPATH Master.java 


当 我 们 编译 完 Masterjava 这 个 文件 后 ， 运 行 它 并 查看 结果 : 


$ java -cp $CLASSPATH Master 127.0.0.1:2181 
... - INFO [...] - Client environment :zookeeper.version=3.4.5-1392090, ...@ 


- INFO [...] - Initiating client connection, 
connectString=127.0.0.1:2181 ...@ 


... - INFO [...] - Opening socket connection to server 
localhost/127.0.0.1:2181. ... 

- INFO [...] - Socket connection established to localhost/127.0.0.1:2181, 
initiating session 

- INFO [...] - Session establishment complete on server 
localhost/127.0.0.1:2181, ...@ 


WatchedEvent state:SyncConnected type:None path:null@ 


ZooKeeper 客 户 端 API 产 生 很 多 日 志 消息 ， 使 用 户 可 以 了 解 发 生 了 
什么 *。 日志 非常 详细 ， 可 以 通过 配置 文件 来 禁用 这 么 详细 的 日 志 ， 不 
过 在 开发 时 ， 这 些 消息 非常 有 用 ， 其 至 在 正式 部 署 后 ， 发 生 了 某 些 我 
们 不 希望 发 生 的 事情 ， 这 些 日 志 消 息 也 是 非常 有 价值 的 。 


QD 前 面 几 行 日 志 消 息 描述 了 ZooKeeper 客 户 端的 实现 和 环境 。 


G@) 当 客户 端 初始 化 一 个 到 ZooKeeper 服 务 器 的 连接 时 ， 无 论 是 最 初 
的 连接 还 是 随后 的 重 连接 ， 都 会 产生 这 些 日 志 消 息 。 


(3 这 个 消息 展示 了 连接 建立 之 后 ， 该 连接 的 信息 ， 其 中 包括 客户 
端 所 连接 的 主机 和 闻 口 信息 ， 以 及 这 个 会 话 与 服务 右 协 两 的 超时 时 
间 。 如 果 服 务 器 发 现 请 求 的 会 话 超时 时 间 太 短 或 太 长 ， 服 务 器 会 调整 

会 话 超时 时 间 。 


(4) 最 后 这 行 并 不 是 ZooKeeper 库 所 输出 ， 而 是 我 们 实现 的 
Watcher.process (WatchedEvent e) 函数 中 输出 的 WatchEvent 对 象 。 


这 个 例子 中 ， 假 设 设 运行 时 所 有 必需 的 库 均 在 lib 子 目录 下 ， 同 时 
假设 log4j.conf 文 件 在 conf 子 目录 中 。 你 可 以 在 你 所 使 用 的 ZooKeeper 发 
行 包 中 找到 这 两 个 目录 。 如 果 你 看 到 以 下 信息 : 


10g4j :WARN No appenders could be found for logger 
(org.apache.zookeeper .ZooKeeper ) . 
log4j:WARN Please initialize the log4j system properly. 


表示 你 还 没有 将 log4j.conf 放 到 classpath 下 。 


3.2.2 ”运行 Watcher 的 示例 


如 果 我 们 不 局 动 ZooKeeper 服 务 承 局 动 主 万 点 ， 这 样 会 发 生 什 么 
We? 我 们 可 以 斌 一下。 停止 服务 ， 然 后 运行 Master， 看 到 了 什么 ? 在 之 
前 输出 中 的 最 后 一 行 ， 即 WatchedEvent 的 数据 ， 现 在 并 没有 出 现 。 因 为 
ZooKeeper 库 无 法 连接 ZooKeeper 服 务 器 ， 所 以 我 们 看 不 到 这 些 信息 
Te 


现在 我 们 启动 服务 器 ， 然 后 运行 Master， 之 后 停止 服务 器 并 保持 
Master 继 续 运 行 。 你 会 看 到 在 SyncConnected 事 件 之 后 发 生 了 
Disconnected 事 件 。 


当 开发 者 看 到 Disconnected 事 件 时 ， 有 些 人 认为 需要 创建 一 个 新 的 
ZooKeeper 句 柄 来 重新 连接 服务 。 不 要 这 么 做 ! 当 你 启动 服务 器 ， 然 后 
启动 Master， 再 重启 服务 器 时 看 一 下 发 生 了 什么 。 你 看 到 
SyncConnected 事 件 之 后 为 Disconnected 事 件 ， 然 后 又 是 一 个 
SyncConnected 事 件 。ZooKeeper 客 户 端 库 负 责 为 你 重新 连接 服务 。 当 不 
幸 遇 到 网 络 中 断 或 服务 器 故障 时 ，ZooKeeper 可 以 处 理 这 些 故障 问题 。 


我 们 需要 知道 ZooKeeper 本 身 也 可 能 发 生 这 些 故 障 问题 。 一 个 
ZooKeeper 服 务 器 也 许 会 故障 或 失去 网 络 连接 ， 类 似 我 们 停止 主 节点 后 


所 模拟 的 场景 。 如 果 ZooKeeper 服 务 至 少 由 三 台 服 务 絮 组 成 ， 那 么 一 个 
服务 絮 的 故障 并 不 会 导致 服务 中 断 。 而 客户 端 也 会 很 快 收 到 
Disconnected 事 件 ， 之 后 便 为 SyncConnected 事 件 。 


注意 : ZooKeeper 管 理 连接 


请 不 要 上 自己 试 着 去 管理 ZooKeeper 客 户 端 连 接 。ZooKeeper 客 户 端 


库 会 监控 与 服务 之 间 的 连接 ， 客 户 端 库 不 仅 告诉 我 们 连接 发 生 问题 ， 

还 会 主动 尝试 重新 建立 通信 。 一 般 客 户 端 开发 库 会 很 快 重建 会 话 ， 以 
便 最 小 化 应 用 的 影响 。 所 以 不 要 关闭 会 话 后 再 启动 一 个 新 的 会 话 ， 这 
样 会 增加 系统 负载 ， 并 导致 更 长 时 间 的 中 断 。 


客户 端 就 像 除了 休眠 外 什么 都 没 做 一 样 ， 而 我 们 通过 发 生 的 事件 
可 以 看 到 后 台 到 底 发 生 了 什么 。 我 们 还 可 以 看 看 ZooKeeper 服 务 端 都 发 
生 了 什么 。ZooKeeper 有 两 种 管理 接口 : JMX 和 四 字母 组 成 的 命令 。 第 
10 章 会 深入 讨论 这 些 接口 ， 现 在 我 们 通过 stat 和 dump 这 两 个 四 字母 命令 
来 看 看 服务 器 上 发 生 了 什么 。 


要 使 用 这 些 命 令 ， 需 要 先 通过 telnet 连 接 到 客户 端 端口 2181， 然 后 
输入 这 些 命 令 〈 在 命令 后 输入 Enter 键 ) 。 例 如 ， 如 果 启 动 Master 这 个 
程序 后 ， 使 用 stat 命 令 ， 我 们 会 看 到 以 下 输出 信息 : 


$ telnet 127.0.0.1 2181 
Trying 127.0.0.1... 
Connected to 127.0.0.1. 
Escape character is '4]'. 
stat 


ZooKeeper version: 3.4.5-1392090, built on 09/30/2012 17:52 GMT 
Clients: 
/127.0.0.1:39470[1] (queued=0, recved=3, sent=3) 
/127.0.0.1:39471[0] (queued=0, recved=1, sent=0) 
Latency min/avg/max: 0/5/48 

Received: 34 

Sent: 33 

Connections: 2 

Outstanding: 0 

Zxid: 0x17 

Mode: standalone 

Node count: 4 

Connection closed by foreign host. 


我 们 从 输出 信息 看 天 有 两 个 客户 端 连 接 到 ZooKeeper 服 务 器 。 一 个 
是 Master 程 序 ， 另 一 个 为 Telnet 连 接 。 


如 有 果 我 们 局 动 Master 程 序 后 ， 使 用 dump 命 令 ， 我 们 会 看 到 以 下 输 
出 信息 : 


$ telnet 127.0.0.1 2181 

Trying 127.0.0.1... 

Connected to 127.0.0.1. 

Escape character is '4]'. 

dump 

SessionTracker dump: 

Session Sets (3): 

© expire at Wed Nov 28 20:34:00 PST 2012: 

© expire at Wed Nov 28 20:34:02 PST 2012: 

1 expire at Wed Nov 28 20:34:04 PST 2012: 
0x13b4a4d22070006 

ephemeral nodes dump: 

Sessions with Ephemerals (0): 

Connection closed by foreign host. 


我 们 从 输出 信息 中 看 到 有 一 个 活动 的 会 话 ， 这 个 会 话 属于 Master 程 
序 。 我 们 还 能 看 到 这 个 会 话 还 有 多 长 时 间 会 过 期 。 会 话 超 时 的 过 期 时 
间 取 决 于 我 们 创建 ZooKeeper 对 象 时 所 指定 的 值 。 


让 我 结束 Master 程 序 ， 再 次 使 用 dump 命 令 来 看 一 下 活动 的 会 话 信 
恩 。 你 会 注意 到 会 话 过 一 段 时 间 后 才 消 失 。 这 是 因为 直到 会 话 超时 时 
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当 Master 结 束 时 ， 最 好 的 方式 是 使 会 话 立即 消失 。 这 可 以 通过 
ZooKeeper.close () 方法 来 结束 。 一 旦 调用 close 方 法 后 ，ZooKeeper 对 
象 实例 所 表示 的 会 话 就 会 被 销毁 。 


证 我 们 在 示例 程序 中 加 入 close 调 用 : 


void stopZK() throws Exception { zk.close(); } 
public static void main(String args[]) throws Exception { 
Master m = new Master(args[0]); 
m.startZK(); 
// wait for a bit 
Thread.sleep( 60000) ; 
m.stopZK(); 


现在 我 们 可 以 再 次 运行 Master 程 序 ， 运 行 dump 命 令 来 看 一 下 会 话 
是 否 还 存活 。 因 为 Master 程 序 中 显示 关闭 了 会 话 ， 所 以 ZooKeeper 关 闭 
会 话 前 就 不 需要 等 待 会 话 超 时 了 。 


3.3 FRAPS 


现在 我 们 有 了 会 话 ， 我 们 的 Master 程 序 需要 获得 管理 权 ， 虽 然 现 
在 我 们 只 有 一 个 主 节 点 ， 但 我 们 还 是 要 小 心 仔 细 。 我 们 需要 运行 多 个 
进程 ， 以 便 在 活动 主攻 点 发 生 故 障 后 ， 可 以 有 进程 接替 主 季 点 。 


为 了 确保 同一 时 间 只 有 一 个 主 节 点 进程 出 于 活动 状态 ， 我 们 使 用 
ZooKeeper 来 实现 简单 的 群 首选 举 算法 〈 在 2.4.1 节 中 所 描述 的 ) 。 这 个 
算法 中 ， 所 有 潜在 的 主 节点 进程 尝试 创建 /master 太 点 ， 但 只 有 一 个 成 
功 ， 这 个 成 功 的 进程 成 为 主 节 点 。 


常量 ZooDefs.Ids.OPEN_ACL _UNSAFE 为 所 有 人 提供 了 所 有 权限 
(正如 其 名 所 显示 的 ， 这 个 ACL 策 略 在 不 可 信和 的 环境 下 使 用 是 非常 不 
安全 的 ) ° 


ZooKeeper 通 过 插件 式 的 认证 方法 提供 了 每 个 节点 的 ACL 策 略 功 
能 ， 因 此 ， 如 果 我 们 需要 ， 束 可 以 限制 某 个 用 户 对 某 个 znode 慷 点 的 哪 
些 权限 ， 但 对 于 这 个 简单 的 例子 ， 我 们 继续 使 用 OPEN_ACL_UNSAFE 
策略 。 当 然 ， 我 们 希望 在 主 世 点 死 掉 后 /masterT AAI o EWR] 
在 2.1.2 节 中 所 提 到 的 持久 性 和 临时 性 znode 节 点 ， 我 们 可 以 使 用 
ZooKeeper 的 临时 性 znode 节 点 来 达到 我 们 的 目的 。 我 们 将 定义 一 个 


EPHEMERAL 的 znode 节 点 ， 当 创建 它 的 会 话 关 闭 或 无 效 时 ， 


Z 
ZooKeeper 会 目 动 检测 到 ， 并 删除 这 个 节点 。 
因此 ， 我 们 将 会 在 我 们 的 程序 中 添加 以 下 代码 : 


String serverId = Integer.toHexString(random.nextInt()); 
void runForMaster() { 
zk.create("/master", @ 


serverId.getBytes(),@ 
OPEN_ACL_UNSAFE, © 


CreateMode.EPHEMERAL ) ; @ 


OFC NRE Zznode t A/master ° WRIXSznode T AF, 
create 就 会 失败 。 同 时 我 们 想 在 /master 节 点 的 数据 字段 保存 对 应 这 个 服 
务 絮 的 唯一 JD。 


数据 字段 只 能 存储 字 节 数组 类 型 的 数据 ， 所 以 我 们 将 int 型 转换 
ATF BAD ° 


(3) 如 之 前 所 提 到 的 ， 我 们 使 用 开放 的 ACL 策 略 。 
由 我们 创建 的 节点 类 型 为 EBPHEMERAL。 


然而 ， 我 们 这 样 做 还 不 够 ，create 方 法 会 抛 出 两 种 异常 : 
KeeperException 和 InterruptedException。 我 们 需要 确保 我 们 处 理 了 这 两 
种 异常 ， 特 别 是 ConnectionLossException (KeeperException 异 常 的 子 
类 ) 和 InterruptedException。 对 于 其 他 异常 ， 我 们 可 以 忽略 并 继续 执 
行 ， 但 对 于 这 两 种 异常 ，create 方 法 可 能 已 经 成 功 了 ， 所 以 如 果 我 们 作 
为 主 太 点 束 需要 捕获 并 处 理 它们 。 


ConnectionLossException 异 常 发生 于 客户 端 与 ZooKeeper 服 务 端 失 
去 连接 时 。 一 般 常 党 由 于 网 络 原因 导致 ， 如 网 络 分 区 或 ZooKeeper 服 务 
器 故障 。 当 这 个 异常 发 生 时 ， 客 户 端 并 不 知道 是 在 ZooKeeper 服 务 器 处 
理 前 丢失 了 请 求 消息 ， 还 是 在 处 理 后 客户 端 未 收 到 响应 消息 。 如 我 们 
之 前 所 描述 的 ，ZooKeeper 的 客户 端 库 将 会 为 后 续 请 求 重新 建立 连接 ， 
但 进程 必须 知道 一 个 未 决 请 求 是 否 已 经 处 理 了 还 是 需要 再 次 发 送 请 
求 。 


InterruptedException 异 党 源 于 客户 端 线程 调用 了 Thread.interrupt， 
通常 这 是 因为 应 用 程序 部 分 关闭 ， 但 还 在 被 其 他 相关 应 用 的 方法 使 
用 。 从 字面 来 看 这 个 异常 ， 进 程 会 中 断 本 地 客户 端的 请 求 处 理 的 过 
程 ， 并 使 该 请 求 处 于 未 知 状态 。 


这 两 种 请 求 都 会 导致 正常 请 求 处 理 过 程 的 中 断 ， 开 发 者 不 能 假设 
处 理 过 程 中 的 请 求 的 状态 。 当 我 们 处 理 这 些 异 浓 时 ， 开 发 者 在 处 理 前 
必须 知道 系统 的 状态 。 如 有 果 发 生 群 首选 举 ， 在 我 们 没有 确认 情况 之 
， 我 们 不 希望 确定 主 节 点 。 如 果 create 执 行 成 功 了 ， 活 动 主 世 点 死 掉 
以 前 ， 没 有 任何 进程 能 够 成 为 主 节 点 ， 如 果 活 动 主 玉 点 还 不 知道 目 己 
已 经 获得 了 管理 权 ， 不 会 有 任何 进程 成 为 主 世 点 进程 。 


当 处 理 ConnectionLossException 异 常 时 ， 我 们 需要 找 出 那个 进程 
创建 的 /master 节 点， 如 果 进 程 是 目 己 ， 束 开始 成 为 群 首 角 色 。 我 们 通 
过 getData 方 法 来 处 理 : 


byte[] getData( 
String path, 
bool watch, 
Stat stat) 


AA 
path 


类 似 其 他 ZooKeeper 方 法 一 样 ， 第 一 个 参数 为 我 们 想 要 获取 数据 的 


znode Ý BETS 。 


watch 


表示 我 们 是 否 想 要 监听 后 续 的 数据 变更 。 如 采 设 置 为 tue， 我 们 
就 可 以 通过 我 们 创建 ZooKeeper 句 柄 时 所 设置 的 Watcher 对 象 得 到 事 
件 ， 同 时 另 一 个 版 本 的 方法 提供 了 以 Watcher 对 象 为 入 参 ， 通 过 这 个 传 
入 的 对 象 来 接收 变更 的 事件 。 我 们 在 后 续 和 章节 再 讨论 如 何 监视 变更 情 
况 ， 现 在 我 们 设置 这 个 参数 为 false， 因 为 我 们 现在 我 们 只 想 知 道 当 前 
的 数据 是 什么 。 


stat 


最 后 一 个 参数 类 型 Stat 结 构 ，getData 方 法 会 填充 znode 节 点 的 元 数 


据 信 息 。 


返回 值 


方法 返回 成 功 (没有 抛 出 异常 ) ， 就 会 得 到 znode 世 点 数据 的 字 节 
数组 。 


让 我 们 按 以 下 代码 段 来 修改 代码 ， 在 runForMaster 方 法 中 引入 弄 各 
处 理 : 


String serverId = Integer.toString(Random.nextLong()); 
boolean isLeader = false; 
// returns true if there is a master 
boolean checkMaster() { 
while (true) { 
try { 
Stat stat = new Stat(); 
byte data[] = zk.getData("/master", false, stat);@ 


isLeader = new String(data).equals(serverId));@ 


return true; 

} catch (NoNodeException e) { 
// no master, so try create again 
return false; 

} catch (ConnectionLossException e) { 

} 

} 
} 


void runForMaster() throws InterruptedException {® 


while (true) { 
try {@ 


zk.create("/master", serverId.getBytes(), 
OPEN_ACL_UNSAFE, CreateMode.EPHEMERAL ) ; © 


isLeader = true; 
break; 
} catch (NodeExistsException e) { 
isLeader = false; 
break; 
} catch (ConnectionLossException e) {© 


} 
if (checkMaster()) break;® 


(D 通 过 获取 /master 季 点 的 数据 来 检查 活动 主 节 点 。 


Q 该 行 展 示 了 为 什么 我 们 需要 使 用 在 创建 /master 节 点 时 保存 的 数 
te: 如 果 /master 存 在 ， 我 们 使 用 /master 中 的 数据 来 确定 谁 是 群 百 。 如 
果 一 个 进程 捕获 到 ConnectionLossException， 这 个 进程 可 能 就 是 主 节 
点 ， 因 create 操 作 实 际 上 已 经 处 理 完 ， 但 响应 消 轧 却 丢 失 了 。 


(3) 我 们 将 InterruptedException 异 党 简单 地 传递 给 调用 者 。 


外 我 们 将 zk.create 方 法 包 在 try 块 之 中 ， 以 便 我 们 捕获 并 处 理 


ConnectionLossException#?# ° 
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(9) 处 理 ConnectionLossException 异 常 的 catch 块 的 代码 为 空 ， 因 为 
Ba FP ARE FIER BL, ORE RAY DAES oS FEARS I] FÍT 


中 检查 活动 主 节 点 是 否 存 在 ， 如 果 不 存在 就 重 试 。 


在 这 个 例子 中 ， 我 们 简单 地 传递 InterruptedException 给 调用 者 ， 即 
癌 上 传递 异 第 。 不 过 ， 在 Java 中 没有 明确 的 指导 方针 告诉 我 们 如 何 处 
理 线程 中 断 ， 甚 至 没有 告诉 我 们 这 个 中 断代 表 什 么 。 有 些 时 候 ， 中 断 
用 于 通知 线程 现在 要 退出 了 ， 需 要 进行 清理 操作 ， 男 外 的 情况 ， 中 断 
用 于 获得 一 个 线程 的 控制 权 ， 应 用 的 执行 还 将 继续 。 


InterruptedException 异 常 的 处 理 依赖 于 程序 的 上 下 文 环境 ， 如 果 问 
上 抛 出 InterruptedException 异 常 ， 最 终 关 闭 zk 人 句柄 ， 我 们 可 以 抛 出 异常 


到 调用 栈 顶 ， 当 句柄 关闭 时 吏 可 以 清理 所 有 一 切 。 如 采 zk 人 句柄 未 天 
闭 ， 在 重新 抛 出 异 芝 前， 我 们 需要 和 并 清楚 目 己 是 不 是 主 世 点， 或 者 继 
续 异 步 执行 后 续 操 作 。 后 者 情况 非常 玉 手 ， 需 要 我 们 仔细 设计 并 有 善 
处 理 。 


现在 ， 我 们 看 一 下 Master 的 main 主 函数 : 


public static void main(String args[]) throws Exception { 
Master m = new Master(args[0]); 
m.startZK(); 
m.runForMaster();@ 


if (isLeader) { 
System.out.printin("I'm the leader"); © 


// wait for a bit 
Thread.sleep( 60000); 
} else 
System.out.println("Someone else is the leader"); 


} 
m.stopZK(); 


调用 我 们 之 前 实现 的 runForMaster 函 数 ， 当 前 进程 成 为 主 节 点 或 
另 一 进程 成 为 主 节 点 后 返回 。 


Hee 
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辑 ， 现 在 我 们 仅仅 输出 我 们 成 为 主 节 点 的 信息 ， 然 后 等 每 60 秒 后 退出 


main EKZ ° 


因为 我 们 并 没有 直接 处 理 InterruptedException 异 常 ， 如 果 发 生 该 异 
常 ， 我 们 的 进程 将 会 简单 地 退出 ， 主 市 点 也 不 会 在 退出 前 进行 其 他 操 
作 。 在 下 一 章 ， 主 节点 开始 管理 系统 队列 中 的 任务 ， 但 现在 我 们 先 继 
续 完善 其 他 组 件 。 


3.3.1 异步 获取 管理 权 


ZooKeeper 中 ， 所 有 同步 调用 方法 都 有 对 应 的 异步 调用 方法 。 通 过 
异步 调用 ， 我 们 可 以 在 单线 程 中 同时 进行 多 个 调用 ， 同 时 也 可 以 简化 
我 们 的 实现 方式 。 让 我 们 回顾 管理 权 的 例子 ， 修 改 为 异步 调用 的 方 
式 。 


以 下 为 create 方 法 的 异步 调用 版 本 : 


void create(String path, 
byte[] data, 
List<ACL> acl, 
CreateMode createMode, 
AsyncCallback.StringCallback cb, © 


Object ctx)® 


create 方 法 的 异步 方法 与 同步 方法 非 第 相似 ， 仪 仅 多 了 两 个 参数 : 


(提供 回调 方法 的 对 象 。 
用户 指定 上 下 文 信息 (回调 方法 调用 是 传 入 的 对 和 象 实例 ) 。 


该 方法 调用 后 通常 在 create 请 求 发 送 到 服务 端 之 前 束 会 并 即 返 回 。 
回调 对 象 通过 传 入 的 上 下 文 参数 来 获取 数据 ， 当 从 服务 器 接收 到 create 
请 求 的 结果 时 ， 上 下 文 参数 束 会 通过 回调 对 象 提供 给 应 用 程序 。 


注意 ， 该 create 方 法 不 会 抛 出 异常 ， 我 们 可 以 简化 处 理 ， 因 为 调用 
返回 前 并 不 会 等 竺 create 命令 完成 ， 所 以 我 们 无 需 天 心 
InterruptedException 寞 常 ， 同 时 因 请 求 的 所 有 错误 信息 通过 回调 对 象 会 
第 一 个 返回 ， 所 以 我 们 也 无 需 关 心 KeeperFException 异 常 。 


回调 对 象 实现 只 有 一 个 方法 的 StringCallback 接 口 : 


void processResult(int rc, String path, Object ctx, String name) 


异步 方法 调用 会 简单 化 队列 对 ZooKeeper 服 务 器 的 请 求 ， 并 在 另 一 
个 线程 中 传输 请 求 。 当 接收 到 响应 信息 ， 这 些 请 求 就 会 在 一 个 专用 回 
调 线 程 中 被 人 处理。 为 了 保持 顺序 ， 只 会 有 一 个 单独 的 线程 按照 接收 顺 
序 处 理 响 应 包 。 


processResult 各 个 参数 的 含义 如 下 : 


Tc 


返回 调用 的 结构 ， 返 回 OK 或 与 KeeperException 异 常 对 应 的 编码 


path 

我 们 传 给 create 的 path 参 数值 。 
ctx 

我 们 传 给 create 的 上 下 文 参数 。 
name 

创建 的 znode 节 点 名 称 。 


目前 ， 调 用 成 功 后 ，path 和 name 的 值 一 样 ， 但 是 ， 如 果 采 用 
CreateMode.SEQUENTIAL 模 式 ， 这 两 个 参数 值 就 不 会 相等 。 


注意 : 回调 函数 处 理 

因为 只 有 一 个 单独 的 线程 处 理 所 有 回调 调用 ， 如 有 果 回 调 函 数 阻 
塞 ， 所 有 后 续 回 调调 用 都 会 被 阻塞 ， 也 吕 是 说 ， 一 般 不 要 在 回调 函数 
中 集中 操作 或 阻塞 操作 。 有 时 ， 在 回调 函数 中 调用 同步 方法 旦 合法 
的 ， 但 一 般 还 是 避免 这 样 做 ， 以 便 后 续 回 调调 用 可 以 快速 被 处 理 。 


让 我 们 继续 完成 我 们 的 主 贡 点 的 功能 ， 我 们 创建 了 
masterCreateCallback 对 象 ， 用 于 接收 create 命 令 的 结果 : 


static boolean isLeader; 
static StringCallback masterCreateCallback = new StringCallback() { 
void processResult(int rc, String path, Object ctx, String name) { 
switch(Code.get(rc)) {0 


case CONNECTIONLOSS: © 


checkMaster(); 
return; 
case OK:® 


isLeader = true; 
break; 
default: @ 


isLeader = false; 
} 
System.out.printin("I'm " + (isLeader ? "" : "not ") + 
"the leader"); 


} 
}; 
void runForMaster() { 
zk.create("/master", serverId.getBytes(), OPEN_ACL_UNSAFE, 
CreateMode.EPHEMERAL, masterCreateCallback, null);® 


(我 们 从 rc 参数 中 获得 create 请 求 的 结果 ， 并 将 其 转换 为 Code 枚 举 
类 型 。rc 如 有 果 不 为 0， 则 对 应 KeeperException 寞 常 。 


@) 如 果 因 连接 丢失 导致 create 请 求 失败 ， 我 们 会 得 到 
CONNECTIONLOSS 编 码 的 结果 ， 而 不 是 ConnectionLossException 异 
连接 丢失 时 ， 我 们 需要 检查 系统 当前 的 状态 ， 并 判断 我 们 需要 
如 何 恢复 ， 我 们 将 会 在 我 们 后 面 实现 的 checkMaster 方 法 中 进行 处 理 。 


G@) 我 们 现在 成 为 群 首 ， 我 们 先 简 单 地 赋值 isLeader 为 true。 
(其 他 情况 ， 我 们 并 未 成 为 群 首 。 


G) 在 runForMaster 方 法 中 ， 我 们 将 masterCreateCallback 传 给 create 
方法 ， 传 入 null 作 为 上 下 文 对 象 参 数 ， 因 为 在 runForMaster 方 法 中 ， 我 


们 现在 不 需要 辣 masterCreateCallback.processResult 方 法 传 入 任何 信 
自 o 


JON 


我 们 现在 需要 实现 checkMaster 方 法 ， 这 个 方法 与 之 前 的 同步 情况 
不 太一 样 ， 我 们 通过 回调 方法 实现 处 理 逻 辑 ， 因 此 在 checkMaster 函 数 
中 不 会 看 到 一 系列 的 事件 ， 而 只 有 getData 方 法 。getData 调 用 完成 后 ， 
后 续 处 理 将 会 在 DataCallback 对 象 中 继续 : 


DataCallback masterCheckCallback = new DataCallback() { 
void processResult(int rc, String path, Object ctx, byte[] data, 
Stat stat) { 
switch(Code.get(rc)) { 
case CONNECTIONLOSS: 
checkMaster(); 


return; 
case NONODE: 
runForMaster(); 
return; 
} 
} 


void checkMaster() 
zk.getData("/master", false, masterCheckCallback, null); 


同步 方法 和 异步 方法 的 处 理 逻 辑 是 一 样 的 ， 只 是 异步 方法 中 ， 我 
们 没有 使 用 while 循 环 ， 而 是 通过 异步 操作 在 回调 函数 中 进行 错误 处 
理 。 


此 时 ， 同 步 的 版 本 看 起 来 比 异 步 版 本 实现 起 来 更 简单 ， 但 在 下 一 
章 我 们 会 看 到 ， 应 用 程序 和 党 由 异步 变化 通知 所 张 动 ， 因 此 最 终 以 异 
步 方 式 构建 系统 ， 反 而 使 代码 更 向 单 。 同 时 ， 腊 步调 用 不 会 阻塞 应 用 
程序 ， 这 样 其 他 事务 可 以 继续 进行 ， 甚 至 是 提交 狐 的 ZooKeeper 操 作 。 


3.3.2 ”设置 元 数据 


我 们 将 使 用 异步 API 方 法 来 设置 元 数据 路 径 。 我 们 的 主 从 模型 设 
计 依 赖 三 个 日 录 : /tasks、/assign 和 /workers， 我 们 可 以 在 系统 启动 前 
通过 某 些 系统 配置 来 创建 所 有 目录 ， 或 者 通过 在 主 节 点 程序 每 次 启动 
时 都 创建 这 些 目录 。 以 下 代码 段 会 创建 这 些 路 径 ， 例 子 中 除了 连接 丢 
失 错 误 的 处 理 外 没有 其 他 错误 处 理 : 


public void bootstrap() 
createParent("/workers", new byte[0]);@ 


createParent("/assign", new byte[0]); 
createParent("/tasks", new byte[0]); 
createParent("/status", new byte[0]); 
} 
void createParent(String path, byte[] data) { 
zk.create(path, 
data, 
Ids .OPEN_ACL_UNSAFE, 
CreateMode.PERSISTENT, 
createParentCallback, 
data); © 


StringCallback createParentCallback = new StringCallback() { 
public void processResult(int rc, String path, Object ctx, String name) { 
switch (Code.get(rc)) { 
case CONNECTIONLOSS: 
createParent(path, (byte[]) ctx);® 


break; 
case OK: 
LOG.info("Parent created"); 
break; 
case NODEEXISTS: 
LOG.warn("Parent already registered: " + path); 
break; 
default: 
LOG.error("Something went wrong: ", 
KeeperException.create(Code.get(rc), path)); 


J; 


dQ) 我 们 没有 数据 存 入 这 些 znode 节 点 ， 所 以 只 传 入 空 的 字 节 数组 。 


G@) 因 为 如 此 ， 我 们 不 用 关心 去 跟踪 每 个 znode 节 点 对 应 的 数据 ， 但 
是 往往 每 个 路 径 都 具有 独特 的 数据 ， 所 以 我 们 通过 回调 上 下 文 参数 对 
create 操 作 进 行 跟 踪 数 据 。 在 create 函 数 的 第 二 个 和 第 四 个 参数 均 传 入 


的 data 对 象 ， 也 许 看 起 来 有 些 奇 怪 ， 但 第 二 个 参数 传 入 的 data 表 示 要 保 
存 到 znode 贡 点 的 数据 ， 而 第 四 个 参数 传 入 的 data， 我 们 可 以 在 
createParentCallback 回 调 函 数 中 继续 使 用 。 


@@ 如 果 回 调 函 数 中 得 到 CONNECTIONLOSS 返 回 码 ， 我 们 通过 调 
用 createPath 方 法 来 对 create 操 作 进 行 重 试 ， 然 而 调用 createPath 我 们 需 
要 知道 之 前 的 create 调 用 中 的 data 参 数 ， 因 此 我 们 通过 create 的 第 四 个 参 
数 传 入 data， 就 可 以 将 数据 通过 ctx 对 象 传 给 回调 画 数 。 因 为 上 下 文 对 
象 与 回调 对 象 不 同 ， 我 们 可 以 使 所 有 create 操 作 使 用 同一 个 回调 对 象 。 


从 本 例 中 ， 你 会 注意 到 znode 节 点 与 文件 (一 个 包含 数据 的 znode 
节点 ) 和 目录 (含有 子 节 点 的 znode 闻 点 ) 没有 什么 区 别 ， 每 个 znode 
节点 可 以 具备 以 上 两 个 特点 。 


3.4 注册 从 


aH 


Th 


现在 我 们 已 经 有 了 主 市 点 ， 我 们 需要 配置 从 节点 ， 以 便 主 市 点 可 
以 发 号 施 令 。 根 据 我 们 的 设计 ， 每 个 从 节点 会 在 /workers 下 创建 一 个 临 
时 性 的 znode 节 点 ， 
用 znode 世 点 中 的 数据 ， 来 指示 从 蔬 点 的 状态 : 
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zookeeper .ZooDefs.Ids; 

zookeeper .AsyncCallback.ChildrenCallback; 
zookeeper .KeeperException.Code; 
zookeeper.data.Stat; 
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class Worker implements Watcher { 

private static final Logger LOG = LoggerFactory.getLogger(Worker.class); 
Zookeeper zk; 
String hostPort; 

String serverId = Integer.toHexString(random.nextInt()); 
Worker(String hostPort) { 

this.hostPort = hostPort; 


} 
void startZK() throws IOException { 
zk = new ZooKeeper(hostPort, 15000, this); 


} 


public void process(WatchedEvent e) { 
LOG.info(e.toString() + ", " + hostPort); 


} 


void register() { 
zk.create("/workers/worker-" + serverId, 


"Idle".getBytes(),® 


Ids.OPEN_ACL_UNSAFE, 
CreateMode . EPHEMERAL, © 


createwWorkerCallback, null); 


} 
StringCallback createWorkerCallback = new StringCallback() { 
public void processResult(int rc, String path, Object ctx, 
String name) { 
switch (Code.get(rc)) { 
case CONNECTIONLOSS: 
register();®@ 


break; 
case OK: 
LOG.info("Registered successfully: " + serverId); 
break; 
case NODEEXISTS: 
LOG.warn( "Already registered: " + serverId); 
break; 
default: 
LOG.error("Something went wrong: " 
+ KeeperException.create(Code.get(rc), path)); 
} 
} 
}; 
public static void main(String args[]) throws Exception { 
Worker w = new Worker(args[0]); 
w.startZK(); 
w.register(); 
Thread.sleep(30000); 
} 
} 


QD 我 们 将 从 节点 的 状态 信息 存 入 代表 从 节点 的 znode 节 点 中 。 


@ 如 果 进 程 死 掉 ， 我 们 希望 代表 从 节点 的 znode 节 点 得 到 清理 ， 所 
以 我 们 使 用 了 EPHEMERAL 标 志 ， 这 意味 着 ， 我 们 人 简单 地 关注/workers 
就 可 以 得 到 有 效 从 节点 的 列表 。 


(3) 因 为 这 个 进程 是 唯一 创建 表示 该 进程 的 临时 性 znode 节 点 的 进 
程 ， 如 采 创 建 季 点 时 连接 丢失 ， 进 程 会 简单 地 重 试 创建 过 程 。 


正如 我 们 之 前 所 看 到 的 ， 因 为 我 们 注册 了 一 个 临时 性 和 节点， 如果 
从 节点 死 掉 ， 表 示 这 个 从 节点 znode 节 点 也 会 消失 ， 所 以 这 是 我 们 在 从 
点 组 成 管理 上 所 有 需要 做 的 事情 。 


我 们 将 从 节点 状态 信息 存 入 了 代表 从 市 点 的 znode 节 点 ， 这 样 我 们 
束 可 以 通过 查询 ZooKeeper 来 获得 从 节点 的 状态 。 当 前 ， 我 们 只 有 初始 
化 和 空 内 状态， 但 是 ， 一旦 从 节点 开始 处 理 某 些 事 情 ， 我 们 还 需要 设 
置 其 他 状态 信息 。 


以 下 为 setStatus 的 实现 ， 这 个 方法 与 之 前 我 们 看 到 的 方法 有 些 不 
同 ， 我 们 希望 异步 方式 来 设置 状态 ， 以 便 不 会 延迟 常规 流程 的 操作 


StatCallback statusUpdateCallback = new StatCallback() { 
public void processResult(int rc, String path, Object ctx, Stat stat) { 
switch(Code.get(rc)) { 
case CONNECTIONLOSS: 
updateStatus((String)ctx);® 


return; 
} 
} 
}; 
synchronized private void updateStatus(String status) { 
if (status == this.status) {® 


zk.setData("/workers/" + name, status.getBytes(), -1, 
statusUpdateCallback, status);® 


public void setStatus(String status) { 
this.status = status; 


updateStatus(status) ;© 


@@ 我 们 将 状态 信息 保存 到 本 地 变量 中 ， 万 一 更 新 失败 ， 我 们 需要 
重 试 。 


(我 们 并 未 在 setStatus 进 行 更 新 ， 而 是 新 建 了 一 个 updateStatus 方 
法 ， 我 们 在 setStatus 中 使 用 它 ， 并 且 可 以 在 重 试 逻 辑 中 使 用 。 


Go 重新 处 理 异 步 请 求 连接 丢失 时 有 个 小 问题 : 处 理 流程 可 能 变 得 
无 序 ， 因 为 ZooKeeper 对 请 求 和 啊 应 都 会 很 好 地 保持 顺序 ， 但 如 采 连 接 
丢失 ， 我 们 又 再 发 起 一 个 新 的 请 求 ， 束 会 导致 整个 时 序 中 出 现 空 际 。 
因此 ， 我 们 进行 一 个 状态 更 新 请 求 前 ， 需 要 移 获 得 当前 状态 ， 否 则 束 
要 放弃 更 新 。 我 们 通过 同步 方式 进行 检查 和 重 试 操作 。 


(3 我 们 执行 无 条 件 更 新 (第 三 个 参数 值 为 -1， 表 示 禁 止 版 本 号 检 
查 ) ， 通 过 上 下 文 对 象 参数 传递 状态 。 


QD 如 果 我 们 收 到 连接 丢失 的 事件 ， 我 们 需要 用 我 们 想 要 更 新 的 状 
态 再 次 调用 updateStatus 方 法 (通过 setData 的 上 下 文 参 数 传递 参数 ) ， 


因为 在 updateStatus 方 法 中 进行 了 竞 态 条 件 的 检查 ， 所 以 我 们 在 这 里 就 
不 需要 再 次 检查 。 


为 了 更 多 地 理解 连接 丢失 时 补 发 操作 的 问题 ， 考 虑 以 下 场景 : 


1. 从 万 点 开始 执行 任务 task-1， 因 此 设置 其 状态 为 working on task- 


2. 客 户 端 库 演 试 通 过 setData 来 实现 ， 但 此 时 遇 到 了 网 络 问题 。 


3. 客 户 端 库 确 定 与 ZooKeeper 的 连接 已 经 丢失 ， 同 时 在 


statusUpdateCallback 调 用 前 ， 从 节点 完成 了 任务 task-1 并 处 于 空闲 状 


4. 从 世上 点 调用 客户 端 库 ， 使 用 setData 方 法 置 状 态 为 Idle。 


5. 之 后 客户 端 处 理 连 接 丢 失 的 事件 ， 如 果 updateStatus 方 法 未 检查 
当前 状态 ，setData 调 用 还 是 会 设置 状态 为 working on task-1 ° 


6. 当 与 ZooKeeper 连 接 重 狐 建 立时 ， 客 户 端 库 会 按 顺序 如 实地 调用 
这 两 个 setData 操 作 ， 这 就 意味 着 最 终 状态 为 working on task-1 ° 


在 updateStatus 方 法 中 ， 在 补 发 setData 之 前 ， 先 检查 当前 状态 ， 这 
样 我 们 惑 可 以 避免 以 上 场景 。 


注意 : 顺序 和 ConnectionLossException 异 常 


ZooKeeper 会 严格 地 维护 执行 顺序 ， 并 提供 了 强 有 力 的 有 序 保障 ， 
然而 ， 在 多 线程 下 还 是 需要 小 心 面 对 顺 序 问题 。 多 线程 下 ， 当 回调 画 
数 中 包括 重 试 逻 得 的 代码 时 ， 一 些 彰 见 的 场景 都 可 能 导致 错误 发 生 。 
当 过 到 ConnectionLossException 寞 钊 而 补 发 一 个 请 求 时 ， 新 建立 的 请 
求 可 能 排序 在 其 他 线程 中 的 请 求 之 后 ， 而 实际 上 其 他 线程 中 的 请 求 应 
该 在 原来 请 求 之 后 。 


3.5 “任务 队列 化 


系统 最 后 的 组 件 为 Client 应 用 程序 队列 化 新 任务 ， 以 便 从 下 点 执行 
这 些 任 务 ， 我 们 会 在 /tasks 节 点 下 添加 子 节 点 来 表示 需要 从 节点 需要 执 
行 的 命令 。 我 们 将 会 使 用 有 序 节 点 ， 这 样 做 有 两 个 好 处 ， 第 一 ， 序 列 
号 指定 了 任务 被 队列 化 的 顺序 ， 第 二 ， 可 以 通过 很 少 的 工作 为 任务 创 
建 基于 序列 号 的 唯一 路 径 。 我 们 的 Client 代 码 如 下 : 


import org.apache.zookeeper .ZooKeeper; 
import org.apache.zookeeper .Watcher; 
public class Client implements Watcher { 
Zookeeper zk; 
String hostPort; 
Client(String hostPort) { this.hostPort = hostPort; } 
void startZK() throws Exception { 
zk = new ZooKeeper(hostPort, 15000, this); 
} 


String queueCommand(String command) throws KeeperException { 
while (true) { 
try { 
String name = zk.create("/tasks/task-",@ 


command.getBytes(), OPEN_ACL_UNSAFE, 
CreateMode. SEQUENTIAL ) ; @ 


return name;® 


break; 
} catch (NodeExistsException e) { 

throw new Exception(name + " already appears to be running"); 
} catch (ConnectionLossException e) {@ 


} 
} 
public void process(WatchedEvent e) { System.out.printlin(e); } 
public static void main(String args[]) throws Exception { 
Client c = new Client(args[0]); 
c.start(); 
String name = c.queueCommand(args[1]); 
System.out.println("Created " + name); 


} 


QD) 我 们 在 /tasks 节 点 下 创建 znode 节 点 来 标识 一 个 任务 ， 节 点 名 称 


Hi Ai task- ° 


@) 因 为 我 们 使 用 的 是 CreateMode.SEQUENTIAL 模式 的 节点 ，task- 
后 面 会 跟随 一 个 单调 递增 的 数字 ， 这 样 就 可 以 保证 为 每 个 任务 创建 的 
znode 节 点 的 名 称 是 唯一 的 ， 同 时 ZooKeeper 会 确定 任务 的 顺序 。 


@ 我 们 无 法 确定 使 用 CreateMode.SEQUENTIAL 调 用 create 的 序列 
号 ，create 方 法 会 返回 新 建 季 点 的 名 称 。 


(4) 如 果 我 们 在 执行 create 时 人 过 到 连接 丢失 ， 我 们 需要 重 试 create 操 
作 。 因 为 多 次 执行 创建 操作 ， 也 许 会 为 一 个 任务 建立 多 个 znode 世 点 ， 
对 于 大 多 数 至 少 执行 一 次 (execute-at-least-once) 策略 的 应 用 程序 ， 也 
没什么 问题 。 对 于 某 些 最 多 执行 一 次 (execute-at-most-once) 策略 的 
应 用 程序 ， 我 们 就 需要 多 一 些 额 外 工作 : 我 们 需要 为 每 一 个 任务 指定 
一 个 唯一 的 ID (如 会 话 ID) ， 并 将 其 编码 到 znode 节 点 名 中 ， 在 遇 到 连 


接 丢失 的 异常 时 ， 我 们 只 有 在 /tasks 下 不 存在 以 这 个 会 话 ID 命 名 的 节点 
时 才 重 试 命令 。 


当 我 们 运行 Client 应 用 程序 并 发 送 一 个 命令 时 ，/tasks 订 点 下 束 会 
创建 一 个 新 的 znode 节 态 ， 该 节点 并 不 十 临 时 性 节操 ， 因 此 即使 Client 
程序 结束 了 ， 这 个 市 点 依然 会 存在 。 


3.6 ”管理 客户 端 


最 后 ， 我 们 将 会 写 一 个 简单 的 AdminClient， 通 过 该 程序 来 展示 系 
统 的 运行 状态 。ZooKeeper 优 点 之 一 是 我 们 可 以 通过 zkCli 工 具 来 查看 
系统 的 状态 ， 但 是 通 音 你 硕 望 编写 你 目 己 的 管理 客户 端 ， 以 便 更 快 更 
简单 地 管理 系统 。 在 本 例 中 ， 我 们 通过 getData 和 getChildren 方 法 来 获 
得 主 从 系统 的 运行 状态 。 


这 些 方法 的 使 用 非常 简单 ， 因 为 这 些 方法 不 会 改变 系统 的 运行 状 
态 ， 我 们 仅 需要 位 单 地 传播 我 们 过 到 的 错误 ， 而 不 需要 进行 任何 清理 
操作 。 


该 示例 使 用 了 同步 调用 的 方法 ， 这 些 方法 还 有 一 个 watch 参 数 ， 我 
们 置 为 false 值 ， 因 为 我 们 不 需要 监视 变化 情况 ， 只 是 想 获得 系统 当前 
的 运行 状态 。 在 下 一 章 中 我 们 将 会 看 到 如 何 使 用 这 个 参数 来 跟踪 系统 
的 变化 情况 。 现 在 ， 让 我 们 看 一 下 AdminClient 的 代码 : 


import org.apache.zookeeper .ZooKeeper; 
import org.apache.zookeeper .Watcher; 
public class AdminClient implements Watcher { 
Zookeeper zk; 
String hostPort; 
AdminClient(String hostPort) { this.hostPort = hostPort; } 
void start() throws Exception { 
zk = new ZooKeeper(hostPort, 15000, this); 


void listState() throws KeeperException { 
try { 
Stat stat = new Stat(); 
byte masterData[] = zk.getData("/master", false, stat);® 


Date startDate = new Date(stat.getCtime());@ 


System.out.println("Master: " + new String(masterData) + 
" since " + startDate); 
} catch (NoNodeException e) { 
System.out.println("No Master"); 


System.out.println("workers:"); 
for (String w: zk.getChildren("/workers", false)) { 
byte data[] = zk.getData("/workers/" + w, false, null);® 


String state = new String(data); 
System.out.printin("\t" +w + ": "+ state); 


System.out.println("Tasks:"); 

for (String t: zk.getChildren("/assign", false)) { 
System.out.printin("\t" + t); 

} 


} 
public void process(WatchedEvent e) { System.out.println(e); } 
public static void main(String args[]) throws Exception { 
AdminClient c = new AdminClient(args[0]); 
c.start(); 
c.listState(); 
} 


ORM Emaste T APATE SED a, AURA 
从 /master 中 获取 数据 ， 以 获得 当前 主 节点 的 名 称 。 因 为 我 们 并 不 关心 
变化 情况 ， 所 以 我 们 将 第 二 个 参数 置 为 false 。 


(@ 我 们 通过 Stat 结 构 ， 可 以 获得 当前 主 节 后 成 为 主 节 点 的 时 间 信 
尽 。ctime 为 该 znode 节 扩建 立时 的 秒 数 (系统 纪元 以 来 的 秒 数 ， 即 目 


1970 年 1 月 1 日 00: 00: 00UTC 的 描述 ) ， 详 细 信 息 请 查看 


java.lang.System.currentTimeMillis () 


3) 临时 节点 含有 两 个 信息 : 指示 当前 从 节点 正在 运行 ， 其 数据 表 
示 从 下 点 的 状态 。 


AdminClient 非 常 简 单 ， 该 程序 简单 地 通过 数据 结构 获得 在 主 从 示 
例 的 信息 。 我 们 斌 着 可 以 启 停 Master 程 序 、Worker 程 序 ， 多 次 运行 
Client 来 队列 化 一 些 任务 ，AdminClient 会 展示 系统 的 这 些 变化 的 状 
KX o 
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你 也 许 想 知道 如 果 在 AdminClient 中 使 用 异步 API 是 否 更 好 。 
ZooKeeper 有 一 个 流水 线 的 实现 ， 用 于 处 理 成 千 上 万 的 并 发 请 求 ， 对 于 
系统 需要 面 对 的 各 种 各 样 的 延迟 问题 是 非常 重要 的 ， 而 最 大 的 延迟 在 
于 硬盘 和 网 络 。 异 步 和 同步 的 组 件 均 通 过 队列 方式 来 有 效 利用 吞吐 
量 。getData 方 法 并 不 会 进行 任何 硬盘 的 访问 ， 但 却 需要 依赖 网 络 传 
输 ， 同 时 我 们 使 得 同步 方法 的 请 求 流水 线 管道 化 。 如 果 我 们 的 
AdminClient 程 序 运 行 于 仅 有 几 十 个 从 下 点 、 几 百 个 任务 的 小 型 系统 
中 ， 也 许 不 会 是 大 问题 ， 但 如 果 系统 包含 的 从 节点 、 任 务 再 上 升 一 个 
数量 级 ， 延 到 问题 可 能 就 变 得 重要 了 。 


考虑 以 下 场景 ， 请 求 的 传输 往返 时 延 时 间 为 1 曼 秒 ， 如 采 进 程 需要 
读 取 10000 个 znode 下 点， 我 们 束 要 在 网 络 延 迟 上 耗费 10 秒 的 时 间 ， 而 


通过 异步 API， 我 们 可 以 缩短 整个 时 间 到 接近 1 秒 的 时 间 。 


以 上 面 的 Master、Worker、Client 这 些 的 基本 实现 带领 我 们 进入 了 
主 从 系统 的 开端 ， 但 到 目前 为 止 还 没有 实际 调度 起 来 。 当 一 个 任务 加 
入 队列 ， 主 节点 需要 唤醒 并 分 配 任务 给 一 个 从 节点 ， 从 节点 需要 找 出 
分 配给 目 己 的 任务 ， 任 务 完成 时 ， 客 户 咒 需要 及 时 知道 ， 如 末 主 市 点 
故障 ， 男 一 个 等 待 中 的 主 节 后 需要 接管 主 广 态 工作 。 如 果 从 市 点 故 
障 ， 分 配给 这 个 从 市 点 的 任务 需要 分 配给 其 他 从 节操 ， 在 下 一 章 中 ， 


我 们 将 会 讨论 这 些 必要 功能 的 实现 。 


3.7 AVE 


我 们 在 zkCli 工 具 中 使 用 的 命令 与 我 们 通过 ZooKeeper 编 程 所 使 用 

的 API 非 常 接近 ， 因 此 ，zkCli 工 具 在 初期 调研 时 非常 有 用 ， 我 们 可 以 
通过 该 工具 党 试 不 同 的 应 用 数据 的 组 织 方式 。 API 与 zkCli 的 命令 非常 
接近 ， 通 过 zkCli 工 具 调 研 后 ， 我 们 就 可 以 快速 写 出 与 zkCli 命 令 对 应 的 
应 用 程序 。 然 而 还 有 一 些 注意 事项 。 首 先 ， 我 们 常常 在 一 个 稳定 环境 
中 使 用 zkCli 工 具 ， 而 不 会 发 生 某 些 未 知 故障 ， 而 对 于 需要 部 署 的 代 
码 ， 我 们 需要 处 理 异 常情 况 使 得 我 们 的 代码 非常 复杂 ， 尤 其 是 
ConnectionLossException 异 常 ， 开 发 者 需要 检查 系统 状态 并 合理 恢复 

(ZooKeeper 用 于 协助 管理 分 布 式 状态 ， 提 供 了 故障 处 理 的 框架 ， 但 遗 
感 的 是 ， 它 并 不 能 让 故障 消失 ) 。 其 次 ， 适 应 异步 API 的 开发 非常 有 
用 ， 异 步 API 提 供 了 巨大 的 性 能 优势 ， 简 化 了 错误 恢复 工作 。 


p) 


=> 
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在 应 用 程序 中 ， 需 要 知道 ZooKeeper 集 合 的 状态 ， 这 种 情况 并 不 少 
见 。 例 如 ， 在 第 1 章 的 例子 中 ， 备 份 主 和 节点 需要 知道 主要 主 和 点 已 经 朋 
并 ， 从 市 点 需 要 知道 任务 分 配给 了 上 自己， 其 至 ZooKeeper 的 客户 站 会 定 
时 轮 询 ZooKeeper 集 合 ， 检 查 系 统 状 态 是 否 发 生 了 变化 。 然 而 轮 询 方式 
并 非 高 效 的 方式 ， 尤 其 是 在 期 望 的 变化 发 生 频 率 很 低 时 。 


举例 说 明 ， 在 主要 主 节点 月 溃 时 ， 和 备份 主 方 点 需要 知道 这 一 情 
况 ， 以 便 它 们 可 以 进行 故障 处 理 。 为 了 减少 主 方 点 月 并 后 的 恢复 时 
间 ， 我 们 需要 频繁 轮 询 ， 如 每 50 片 秒 ， 只 是 为 了 用 示例 说 明 积 极 轮 询 
的 情况 。 在 这 种 情况 下 ， 每 个 备份 主 节 点 每 秒 会 产生 20 个 请 求 ， 如 果 
有 多 个 备份 主 下 点 ， 备 份 主 下 点 的 数量 乘 上 这 个 频率 ， 丈 得 到 了 为 得 
到 主要 主 世 点 状态 而 轮 询 ZooKeeper 所 消耗 的 全 部 请 求 量 ， 即 使 像 
ZooKeeper 这 样 的 系统 处 理 这 个 数量 请 求 也 非常 简单 ， 但 主要 主 忆 点 朋 
误 的 情况 很 少 发 生 ， 因 此 这 些 请 求 其 实 是 多 余 的 。 假 设 我 们 通过 增加 
主 节点 状态 查询 的 轮 询 周 期 来 减少 对 ZooKeeper 的 查询 数量 ， 如 1 秒 ， 
周期 时 间 的 增加 则 会 导致 主 太 点 月 并 时 恢复 时 间 的 增加 。 


我 们 完全 可 以 通过 ZooKeeper 通 知客 户 端 感 兴趣 的 具体 事件 来 避免 
轮 询 的 调 优 和 轮 询 流 量 。ZooKeeper 提 供 了 处 理 变 化 的 重要 机 制 一 一 监 
视点 (watch) 。 通 过 监视 点 ， 客 户 端 可 以 对 指定 的 znode 世 点 注册 一 


个 通知 请 求 ， 在 发 生变 化 时 就 会 收 到 一 个 单 次 的 通知 。 例 如 ， 我 们 的 
主要 主 节 点 创建 了 一 个 临时 性 的 znode 节 点 来 标识 主 节点 锁 ， 而 备份 主 
节 扩 注册 一 个 监视 点 来 监视 这 个 主 市 点 锁 是 否 存在 ， 如 采 主 让 点 月 
演 ， 主 节 反 锁 目 动 被 删除 ， 并 通知 所 有 备份 主 广 点。 一 旦 备份 主 让 点 
收 到 通知 ， 它 们 就 可 以 开始 进行 主 市 点 选举 ， 如 3.3 市 中 所 述 ， 通 过 壬 
试 创建 一 个 临时 的 znode 节 点 来 标识 主 节 点 锁 。 


监视 点 和 通知 形成 了 一 个 通用 机 制 ， 使 客户 端 可 以 观察 变化 情 
况 ， 而 不 用 不 断 地 轮 询 ZooKeeper。 我 们 已 经 通过 主 市 点 的 例子 进行 了 
说 明 ， 但 该 通用 机 制 还 适用 于 很 多 情况 。 


4.1 FAY ALAC as 


在 深入 讨论 监视 点 之 前 ， 我 们 和 完了 解 一 些 术 语 。 我 们 所 说 的 事件 
(event) 表示 一 个 znode 广 点 执行 了 更 新 操作 。 而 一 个 监视 点 
(watch) 表示 一 个 与 之 关联 的 znode 节 点 和 事件 类 型 组 成 的 单 次 触发 
$ (例如 ，znode 节 点 的 数据 被 赋值 ， 或 znode 节 点 被 删除 ) 。 当 一 个 
监视 点 被 一 个 事件 触发 时 ， 就 会 产生 一 个 通知 (notification) 。 通 知 
征 注 册 了 监视 总 的 应 用 客户 端 收 到 的 事件 报告 的 消息 。 


H, 


当 应 用 程序 注册 了 一 个 监视 点 来 接收 通知 ， 匹 配 该 监视 总 条件 的 
第 一 个 事件 会 触发 监视 点 的 通知 ， 并 且 最 多 只 触发 一 次 。 例 如 ， 妆 
Znode 节 点 /z 被 删除 ， 客 户 端 需要 知道 该 变化 (例如 ， 表 示 备 份 主 节 
点 ) ， 客 户 端 在 /z 节 点 执行 exists 操 作 并 设置 监视 点 标志 位 ， 等 待 通 


知 ， 客 户 端 会 以 回调 函数 的 形式 收 到 通知 。 


客户 端 设 置 的 每 个 监视 点 与 会 话 关 联 ， 如 果 会 话 过 期 ， 等 行 中 的 
监视 点 将 会 被 删除 。 不 过 监视 点 可 以 跨越 不 同 服务 端的 连接 而 保持 ， 
例如 ， 当 一 个 ZooKeeper 客 户 端 与 一 个 ZooKeeper 服 务 端的 连接 断 开 后 
连接 到 集合 中 的 另 一 个 服务 端 ， 客 户 端 会 发 送 未 触发 的 监视 点 列表 ， 
在 注册 监视 点 时 ， 服 务 端 将 要 检查 已 监视 的 znode 广 点 在 之 前 注册 监视 


点 之 后 古 否 已 经 变化 ， 如 果 znode 市 点 已 经 发 生变 化 ， 一 个 监视 点 的 事 
件 束 会 被 发 送 给 客户 端 ， 否 则 在 新 的 服务 山上 注册 监视 点 。 


单 次 触发 旦 否 会 丢失 事件 
答案 是 肯定 的 。 一 个 应 用 在 接收 到 通知 后 ， 广 册 另 一 个 监视 点 


三 | 
时 ， 可 能 会 丢失 事件 ， 不 过 ， 这 个 问题 需要 再 深入 讨论 。 丢 失事 件 通 
党 并 不 是 问题 ， 因 为 任何 在 接收 通知 与 注册 新 监视 点 之 间 的 变化 情 
况 ， 均 可 以 通过 读 取 ZooKeeper 的 状态 信息 来 获得 。 


z| 


假设 一 个 从 市 点 接收 到 一 个 新 任务 分 配给 它 的 通知 。 为 了 接收 新 
任务 ， 从 厄 点 读 取 任务 列表 ， 如 有 果 在 通知 接收 后 ， 叉 给 这 个 从 节点 分 
配 了 更 多 的 任务 ， 在 通过 getChildren 调 用 获取 任务 列表 时 会 返回 所 有 
的 任务 。 同 时 调用 getChildren 时 也 可 以 设置 新 的 监视 点 ， 从 而 保证 从 


开局 个 会 天 类 任务 * 


实际 上 ， 将 多 个 事件 分 摊 到 一 个 通知 上 具有 积极 的 作用 ， 比 如 ， 
应 用 进行 高 频率 的 更 新 操作 时 ， 这 种 通知 机 制 比 每 个 事件 都 发 送 通 知 
更 加 轻 量 化 。 举 个 例子 ， 如 果 每 个 通知 平均 捕获 两 个 事件 ， 我 们 为 每 
个 事件 只 产生 了 0.5 个 通知 ， 而 不 是 每 个 事件 1 个 通知 。 


4.2 ”如何 设置 监视 点 


ZooKeeper 的 API 中 的 所 有 读 操作 : getData、getChildren 和 exists ， 
均 可 以 选择 在 读 取 的 znode 节 点 上 设置 监视 点 。 使 用 监视 点 机 制 ， 我 们 
需要 实现 Watcher 接 口 类 ， 实 现 其 中 的 process 方 法 : 


public void process(WatchedEvent event); 


WatchedEvent 数 据 结构 包括 以 下 信息 


.ZooKeeper 会 话 状态 (KeeperState) : Disconnected ` 
SyncConnected、AuthFailed、ConnectedReadOnly、SaslAuthenticated 和 


Expired ° 


.事件 类 型 (EventType) : NodeCreated ` NodeDeleted ` 


NodeDataChanged ` NodeChildrenChanged#!lNone ° 


.如 果 事 件 类 型 不 是 None 时 ， 返 回 一 个 znode 路 径 。 


其 中 前 三 个 事件 类 型 只 涉及 单个 znode 节 点 ， 第 四 个 事件 类 型 涉及 
监视 的 znode 节 点 的 子 下 点 。 我 们 使 用 None 表 示 无 事件 发 生 ， 而 是 
ZooKeeper 的 会 话 状态 发 生 了 变化 。 


监视 点 有 两 种 类 型 : 数据 监视 点 和 子 节 点 监视 点 。 创 建 、 删 除 或 
设置 一 个 znode 世 点 的 数据 都 会 触发 数据 监视 点 ，exists 和 getData 这 两 
个 操作 可 以 设置 数据 监视 点 。 只 有 getChildren 操 作 可 以 设置 子 节 点 监 
视点 ， 这 种 监视 点 只 有 在 znode 子 广 扣 创建 或 删除 时 才 被 触发 。 对 于 每 
种 事件 类 型 ， 我 们 通过 以 下 调用 设置 监视 点 : 

NodeCreated 
通过 exists 调 用 设置 一 个 监视 点 。 
NodeDeleted 
通过 exists 或 getData 调 用 设置 监视 点 。 
NodeDataChanged 
通过 exists 或 getData 调 用 设置 监视 点 。 
NodeChildrenChanged 
通过 getChildren 调 用 设置 监视 点 。 


当 创建 一 个 ZooKeeper 对 象 ( 见 第 3 章 ) ， 我 们 需要 传递 一 个 默认 
的 Watcher 对 象 ，ZooKeeper 客 户 端 使 用 这 个 监视 点 来 通知 应 用 
ZooKeeper 状 态 的 变化 情况 ， 如 会 话 状态 的 变化 。 对 于 ZooKeeperT 点 


的 事件 的 通知 ， 你 可 以 使 用 默认 的 监视 点 ， 也 可 以 单独 实现 一 个 。 例 
如 ，getData 调 用 有 两 种 方式 设置 监视 点 : 


public byte[] getData(final String path, Watcher watcher, Stat stat); 
public byte[] getData(String path, boolean watch, Stat stat); 


ANTEE TERU Aanode Th, BATAR BE ST 
Watcher 对 象 (FUN A AB 5E 22), BATEE YAA EH A 
认 的 监视 点 ， 我 们 只 需要 在 调用 时 将 第 二 个 参数 传递 tue。 


stat 入 参 为 Stat 类 型 的 实例 化 对 象 ，ZooKeeper 使 用 该 对 象 返 回 指定 
的 path 参 数 的 znode 广 点 信息 。Stat 结 构 包 括 znode 广 点 的 属性 信息 ， 如 
anode Tt AWN) EV ET (zxid) 的 时 间 惟 ， 以 及 该 znode 节 点 的 子 节 点 
数 。 


对 于 监视 点 的 一 个 重要 问题 是 ， 一 旦 设置 监视 点 束 无 法 移 除 。 要 
想 移 除 一 个 监视 点 ， 只 有 两 个 方法 ， 一 是 触发 这 个 监视 点 ， 二 有 是 使 其 
会 话 被 关闭 或 过 期 。 在 未 来 版 本 中 可 能 会 改变 这 个 特性 ， 这 是 因为 开 
发 社区 致力 于 在 版 本 3.5.0 中 提供 该 功能 。 


注意 : 关于 一 些 重 载 


在 ZooKeeper 的 会 话 状 态 和 znode 广 点 的 变化 事件 中 ， 我 们 使 用 了 
相同 的 监视 机 制 来 处 理应 用 程序 的 相关 事件 的 通知 。 虽 然 会 话 状 态 的 


变化 和 znode 状 态 的 变化 组 成 了 两 个 独立 的 事件 集合 ， 为 简单 其 见 ， 我 
们 使 用 了 相同 的 机 制 传 送 这 些 事件 。 


4.3 MRA 


我 们 进入 主 - 从 模式 例子 的 章节 之 前 ， 先 看 一 些 ZooKeeper 的 应 用 


中 使 用 的 通用 代码 的 模型 : 


2. 实 现 回 调 对 象 ， 并 传 入 异步 调用 函数 中 。 


3. 如 采 操 作 和 需要 设置 监视 点 ， 实 现 一 个 Watcher 对 象 ， 并 传 入 异 


调用 函数 中 。 
以 下 为 exists 的 异步 调用 的 示例 代码 : 


zk.exists("/myZnode", @ 


myWatcher, 
existsCallback, 
null); 
Watcher myWatcher = new Watcher() {@ 


public void process(WatchedEvent e) { 
// Process the watch event 


} 


} 
StatCallback existsCallback = new StatCallback() {® 


步 


public void processResult(int rc, String path, Object ctx, Stat stat) { 
// Process the result of the exists call 
} 


}; 
@ZooKeeper 的 exists 调 用 ， 注 意 该 调用 为 异步 方式 。 
@Watcher 的 实现 。 
Gexists 的 回调 对 象 。 


之 后 我 们 会 看 到 ， 该 框架 使 用 非常 广 沁 。 


4.4” 主 -从 模式 的 例子 


现在 ， 我 们 通过 主 -从 模式 的 例子 来 看 看 如 何 处 理 状态 的 变化 。 以 
下 为 一 个 任务 列表 ， 一 个 组 件 需要 等 待 处 理 的 变化 情况 : 


-管理 权 变 化 。 


- 主 节点 等 竺 从 节点 列表 的 变化 。 


-从 节操 等 得 分 配 新 任务 。 
客户 端 等 待 任务 的 执行 结果 。 


我 们 之 后 会 通过 一 些 代码 片段 来 说 明 如 何在 ZooKeeper 环 境 中 处 理 


本 书 附件 部 分 提供 了 完整 的 实例 代码 。 
4.4.1 管理 权 变 化 


回忆 在 3.3 节 讨论 的 内 容 ， 应 用 客户 端 通过 创建 /master 世 点 来 推选 
自己 为 主 节点 (RIMA ETAWA”) ， 如 果 znode 节 点 已 经 存在 ， 


应 用 客户 端 确认 目 己 不 是 主要 主 世 点 并 返回 ， 然 而 ， 这 种 实现 方式 无 
RARER ET AMAA °c URER ET AB, ee 

， 因 此 我 们 需要 在 /master 上 设置 监视 点 ， 在 方 点 删除 时 〈 无 论 是 显 
式 关 闭 还 是 因为 主要 主 世 点 的 会 话 过 期 ) ，ZooKeeper 会 通知 客户 端 。 


为 了 设置 监视 点 ， 我 们 新 建 一 个 新 的 监视 点 对 象 ， 命 名 为 
masterExistsWatcher， 并 传 入 exists 方 法 中 。 一 旦 /master 删 除 就 会 发 出 通 
知 ， 就 会 调用 在 masterExistsWatcher 定 义 的 process 函 数 ， 并 调用 


runForMaster 方 法 。 


StringCallback masterCreateCallback = new StringCallback() { 
public void processResult(int rc, String path, Object ctx, String name) { 
switch (Code.get(rc)) { 
case CONNECTIONLOSS: 
checkMaster();® 


break; 

case OK: 
state = MasterStates.ELECTED; 
takeLeadership();@ 


break; 

case NODEEXISTS: 
state = MasterStates.NOTELECTED; 
masterExists();@® 


break; 
default: 
state = MasterStates.NOTELECTED; 
LOG.error("Something went wrong when running for master.",@ 


KeeperException.create(Code.get(rc), path)); 


} 
} 
}; 
void masterExists() { 
zk.exists("/master",® 


masterExistswatcher, 
masterExistsCallback, 
null); 


Watcher masterExistswWatcher = new Watcher() { 
public void process(WatchedEvent e) { 
if(e.getType() == EventType.NodeDeleted) { 
assert "/master".equals( e.getPath() ); 
runForMaster();© 


}; 


在 连接 丢失 事件 发 生 的 情况 下 ， 客 户 端 检 查 /master 节 点 是 否 存 
在 ， 因 为 客户 端 并 不 知道 是 否 能 够 创建 这 个 和 点 。 


如 有 果 返 回 OK， 那 么 开始 行使 领导 权 。 


如果 其 他 进程 已 经 创建 了 这 个 znode 节 点 ， 客 户 端 需要 监视 该 万 


出 如果 发 生 了 某 些 意外 情况 ， 就 会 记录 错误 日 志 ， 而 不 再 做 其 他 


G) 通 过 exists 调 用 在 /master 节 点 上 设置 了 监视 点 。 


(90 如果/masterT 点 删除 了 ， 那 么 再 次 竞选 主 世 点 。 


下 面 继续 采用 我 们 在 3.3.1 节 中 所 讨论 的 异步 方式 ， 我 们 同样 需要 
为 exists 调 用 创建 一 个 回调 函数 ， 以 便 在 回调 函数 中 关注 某 些 情 况 。 首 
先 ， 在 发 生 连 接 丢 失 的 事件 时 ， 因 为 需要 在 /masterT 点 上 设置 监视 
点 ， 所 以 需要 再 次 调用 exists 操 作 ; 其 次 ， 在 create 的 回调 方法 执行 和 
exists 操 作 执行 之 间 发 生 了 /master 下 点 被 删除 的 情况 ， 因 此 在 exists 返 回 
操作 成 功 后 (返回 OK) ， 我 们 需要 检查 返回 的 stat 对 象 是 否 为 宪 ， 因 为 
SMPTE, stat null; 最 后 ， 如 果 返 回 的 结果 不 是 OK 或 
CONNECTIONLOSS， 我 们 通过 获取 区 点 数据 来 检查 /masterT 点 。 加 
入 客户 疹 的 会 话 过 期 ， 在 这 种 情况 下 ， 获 得 /master 数 据 的 回调 方法 会 
记录 一 个 错误 信息 并 退出 。 以 下 为 我 们 的 exists 回 调 方法 的 代码 : 


StatCallback masterExistsCallback = new StatCallback() { 
public void processResult(int rc, String path, Object ctx, Stat stat) { 
switch (Code.get(rc)) { 
case CONNECTIONLOSS: 
masterExists();@ 


break; 
case OK: 
if(stat == null) { 
state = MasterStates.RUNNING; 
runForMaster();@ 


break; 
default: 
checkMaster();® 


break; 


连接 丢失 的 情况 下 重 试 。 
如果 返回 OK， 判 断 znode 节 点 是 否 存在 ， 不 存在 就 竞选 主 万 点 。 
如 有 果 发 生意 外 情况 ， 通 过 获取 节点 数据 来 检查 /master 和 是 否 存在 。 


对 /master 世 点 执行 exists 操 作 ， 返 回 结果 也 许 是 该 znode 下 点 已 经 被 
删除 ， 这 时 因为 无 法 保证 监视 点 的 设置 是 在 znode 节 点 删除 前 ， 所 以 客 
户 端 需要 再 次 竞选 nasterT 点 。 如 有 果 再 次 尝试 成 为 主 世 点 失败 ， 那 么 
客户 端 殴 知 道 有 其 他 客户 端 成 功 了 ， 之 后 该 客户 端 就 需要 再 次 
为 /master 节 点 添加 监视 点 。 如 果 收 到 的 是 /master 广 点 创 建 的 通知 ， 而 
不 是 删除 通知 ， 客 户 端 就 不 再 范 选 /master 节 点 ， 同 时 ， 对 应 的 exists 操 
E (设置 监视 点 的 操作 ) 会 返回 /master 节 点 不 存在 ， 然 后 触发 exists 回 


pas 
WOIE, tT /master $ Sethe o 


我 们 注意 到 ， 只 要 客户 端 程序 运行 中 ， 且 没有 成 为 主要 主 市 点 ， 
客户 端 竞选 主 世 点 并 执行 exists 来 设置 监视 点 ， 这 一 模式 就 会 一 直 运 行 
下 去 。 如 和 客户 端 成 为 主要 主 世 点 ， 但 却 朋 泪 了 ， 客 户 端 重 局 还 继续 
重新 执行 这 些 代码 。 


图 4-1 直 观 地 展示 了 这 些 交 错 的 操作 。 如 果 竞 选 主 万 点 成 功 〈 图 中 
a) ，create 操 作 执 行 完成 ， 应 用 客户 端 不 需要 做 其 他 事情 。 如 有 果 create 
操作 失败 ， 则 意味 着 该 节点 已 经 存在 ， 客 户 端 就 会 执行 exists 操 作 来 设 
置 /master 节 点 的 监视 点 (图 中 b) 。 在 竞选 主 节点 和 执行 exists 操 作 之 
间 ， 也 许 /master 节 点 已 经 删除 了 ， 这 时 ， 如 果 exists 调 用 返回 该 节点 依 
然 存 在 ， 客 户 端 只 需要 等 待 通 知 的 到 来 ， 否 则 就 需要 再 次 尝试 创 
建 /master 进 行 竞选 主 节 点 操作 。 如 果 创 建 /naster 下 点 成 功 ， 监 视点 吕 
会 被 触 发 ， 表 示 znode 节 点 发 生 了 变化 (图 中 c) ， 不 过 ， 这 个 通知 没有 
什么 意义 ， 因 为 这 是 客户 端 自己 引起 的 变化 。 如 果 再 次 执行 create 操 作 
失败 ， 我 们 就 会 通过 执行 exists 设 置 监视 点 来 重新 执行 这 一 流程 (图 中 
d). + 


Create /master 
succeeds 
a — 0yr 
Create /master /master 
fails exists 
(b) 
Create /master /master Create /master Watch is 
fails doesn't exist succeeds triggered 
o—0— OoOO 
Create /master /master Watch is Create /master 
fails doesn't exist triggered fails 
(d) 


4.4.2” 主 蔬 点 等 竺 从 节点 列表 的 变化 


系统 中 任何 时 候 都 可 能 发 生 新 的 从 节点 加 入 进来 ， 或 旧 的 从 市 点 
退役 的 情况 ， 从 地 后 执行 分 配给 它 的 任务 前 也 许 会 月 六。 为 了 确认 某 
个 时 间 点 可 用 的 从 节点 信息 ， 我 们 通过 在 ZooKeeper 中 的 /workers 下 添 
加 子 节 点 来 注册 新 的 从 节点 。 当 一 个 从 节点 前 溃 或 从 系统 中 被 移 除 ， 
如 会 话 过 期 等 情况 ， 需 要 目 动 将 对 应 的 znode 节 点 删除 。 优 雅 实现 的 从 
节点 会 显 式 地 关闭 其 会 话 ， 而 不 需要 ZooKeeper 等 待 会 话 过 期 。 


主要 主 节 点 使 用 getChildren 来 获取 有 效 的 从 市 点 列表 ， 同 时 还 会 监 
控 这 个 列表 的 变化 。 以 下 为 获取 列表 并 监视 变化 的 示例 代码 : 


Watcher workersChangewatcher = new Watcher() {0 


public void process(WatchedEvent e) { 
if(e.getType() == EventType.NodeChildrenChanged) { 
assert "/workers".equals( e.getPath() ); 
getworkers(); 
} 


} 
}; 
void getworkers() { 
zk.getchildren("/workers", 
workersChangeWatcher, 
workersGetChildrenCallback, 
null); 


} 
ChildrenCallback workersGetChildrenCallback = new ChildrenCallback() { 
public void processResult(int rc, String path, Object ctx, 
List<String> children) { 
switch (Code.get(rc)) { 
case CONNECTIONLOSS: 
getworkerList();@ 


break; 
case OK: 
LOG.info("Succesfully got a list of workers: " 
+ children.size() 
+ " workers"); 
reassignAndSet (children) ;® 


break; 
default: 
LOG.error("getChildren failed", 
KeeperException.create(Code.get(rc), path)); 


} 


QDworkersChangeWatcher 为 从 六 点 列表 的 监视 点 对 象 。 


GO 当 CONNECTIONLOSS 事 件 发 生 时 ， 我 们 需要 重新 获取 子 节点 并 
设置 监视 点 的 操作 。 


5) 重新 分 配 朋 总 从 节点 的 任务 ， 并 重 痢 设置 新 的 从 节点 列表 © 


我 们 从 getWorkerList 方 法 开始 执行 ， 通 过 异步 方式 执行 getChildren 
方法 ， 传 入 workersGetChildrenCallback 参 数 用 于 处 理 操作 结果 。 如 果 客 
户 端 失去 与 服务 端的 连接 (CONNECTIONLOSS 事 件 ) ， 监 视点 不 会 
被 添加 ， 我 们 也 不 会 得 到 从 节点 的 列表 ， 我 们 再 次 执行 getWorkerList 来 
设置 监视 点 并 获取 从 节点 列表 ， 如 果 执 行 getChildren 成 功 ， 我 们 就 会 调 
用 reassignAndSet 方 法 ， 该 方法 的 代码 如 下 : 


ChildrenCache workersCache;® 


void reassignAndSet(List<String> children) { 
List<String> toProcess; 
if(workersCache == null) { 
workersCache = new ChildrenCache(children) ;@ 


toProcess = null;® 


} else { 
LOG. info( "Removing and setting" ); 
toProcess = workersCache.removedAndSet( children );@ 


} 
if(toProcess != null) { 
for(String worker : toProcess) { 
getAbsentwWorkerTasks(worker );® 


w 


GD 该 变量 用 于 保存 上 次 获得 的 从 节点 列表 的 本 地 缓存 。 
人 如果 第 一 次 使 用 本 地 缓存 这 个 变量 ， 那 么 初始 化 该 变量 。 
人 第 一 次 获得 所 有 从 节点 时 ， 不 需要 做 什么 其 他 事 。 
(如果 不 是 第 一 次 ， 那 么 需要 检查 是 否 有 从 节操 已 经 被 移 除了 。 


(如 有 果 有 从 市 点 补 移 除了 ， 我 们 就 需要 重新 分 配 任务 。 


我 们 需要 保存 之 前 获得 的 信息 ， 因 此 使 用 本 地 缓存 。 假 设 在 我 们 
第 一 次 获得 从 市 点 列表 后 ， 当 收 到 从 节点 列表 更 新 的 通知 时 ， 如 有 果 我 
们 没有 保存 旧 的 信息 ， 即 使 我 们 再 次 读 取信 息 也 不 知道 具体 变化 的 信 
息 是 什么 。 本 例 中 的 缓存 类 简单 地 保存 主 广 点 上 次 读 取 的 列表 信息 ， 
并 实现 检查 变化 信息 的 一 些 方法 。 


注意 : 基于 CONNECTIONLOSS 事 件 的 监视 


监视 点 的 操作 执行 成 功 后 就 会 为 一 个 znode 世 点 设置 一 个 监视 点 ， 
如 有 果 ZooKeeper 的 操作 因为 客户 端 连 接 断 开 而 失败 ， 应 用 需要 再 次 执行 


这 些 调用 。 


与 等 待 从 和 点 列表 变化 类 似 ， 主 要 主 万 点 等 待 添加 到 /tasks 世 点 中 
的 新 任务 。 主 节点 首先 获得 当前 的 任务 集 ， 并 设置 变化 情况 的 监视 
点 。 在 ZooKeeper 中 ，/tasks 的 子 广 点 表示 任务 集 ， 每 个 子 廊 点 对 应 一 个 
任务 ， 一 旦 主 世 点 获得 还 未 分 配 的 任务 信息 ， 主 节点 会 随机 选择 一 个 
从 而 后 ， 将 这 个 任务 分 配给 从 广 点 。 以 下 assignTasks 方 法 为 任务 分 配 的 
实现 : 


Watcher tasksChangewatcher = new Watcher() {0 


public void process(WatchedEvent e) { 
if(e.getType() == EventType.NodeChildrenChanged) { 
assert "/tasks".equals( e.getPath() ); 
getTasks(); 


} 
}; 
void getTasks() { 
zk.getChildren("/tasks", 
tasksChangewatcher, 
tasksGetChildrenCallback, 
null); © 


} 
ChildrenCallback tasksGetChildrenCallback = new ChildrenCallback() { 
public void processResult(int rc, 
String path, 
Object ctx, 
List<String> children) { 
switch(Code.get(rc)) { 
case CONNECTIONLOSS: 
getTasks(); 
break; 
case OK: 
if(children != null) { 
assignTasks(children) ;®@ 


} 


break; 
default: 
LOG.error("getChildren failed.", 
KeeperException.create(Code.get(rc), path)); 


}; 


Q 员 在 任务 列表 变化 时 ， 人 处 理 通 知 的 监视 点 实现 。 
(获得 任务 列表 。 


(分 配 列表 中 的 任务 。 


现在 我 们 实现 assignTasks 方 法 ， 该 方法 简单 地 分 配 在 /tasks 子 广 点 
表示 的 列表 中 的 每 个 任务 。 在 建立 任务 分 配 的 znode 闻 点 前 ， 我 们 首先 


通过 getData 方 法 获得 任务 信息 : 


void assignTasks(List<String> tasks) { 
for(String task : tasks) { 
getTaskData(task); 
} 


void getTaskData(String task) { 
zk.getData("/tasks/" + task, 
false, 
taskDataCallback, 
task); ®© 


} 
DataCallback taskDataCallback = new DataCallback() { 
public void processResult(int rc, 
String path, 
Object ctx, 
byte[] data, 
Stat stat) { 
switch(Code.get(rc)) { 
case CONNECTIONLOSS: 
getTaskData((String) ctx); 
break; 


* Choose worker at random. 

*/ 
int worker = rand.nextInt(workerList.size()); 
String designatedWorker = workerList.get(worker); 


/* 
* Assign task to randomly chosen worker. 
*/ 
String assignmentPath = "/assign/" + designatedWorker + "/" + 


(String) ctx; 
createAssignment(assignmentPath, data); @ 


break; 
default: 
LOG.error("Error when trying to get task data.", 
KeeperException.create(Code.get(rc), path)); 


}; 


获得 任务 aA ™ 
(随机 选择 一 个 从 市 点 ， 分 配 任务 给 这 个 从 市 点 。 


首先 我 们 需要 获得 任务 的 信息 ， 因 为 分 配 任务 后 ， 我 们 会 删 
除 /tasks 下 的 这 个 子 节 点 ， 这 样 ， 主 节点 就 不 需要 记 住 分 配 了 哪些 任 
务 。 让 我 们 看 一 下 分 配 一 个 任务 的 代码 : 


void createAssignment(String path, byte[] data) { 
zk.create(path, 
data, Ids.OPEN_ACL_UNSAFE, 
CreateMode.PERSISTENT, 
assignTaskCallback, 
data);@ 


} 
StringCallback assignTaskCallback = new StringCallback() { 
public void processResult(int rc, String path, Object ctx, String name) { 
switch(Code.get(rc)) { 
case CONNECTIONLOSS: 
createAssignment(path, (byte[]) ctx); 
break; 
case OK: 
LOG.info("Task assigned correctly: " + name); 
deleteTask(name.substring( name.lastIndexof("/") + 1 ));@ 


break; 
case NODEEXISTS: 
LOG.warn("Task already assigned"); 
break; 
default: 
LOG.error("Error when trying to assign task.", 
KeeperException.create(Code.get(rc), path)); 


}; 


QD 创建 分 配 节 点 ， 路 径 形 式 为 /assign/worker-id/task-num ° 


@ 删 除 /asks 下 对 应 的 任务 节点 。 


对 于 新 任务 ， 主 市 点 选择 一 个 从 节点 分 配 任 务 之 后 ， 主 节点 就 会 
在 /assign/work-id 节 点 下 创建 一 个 新 的 znode 世 点 ， 其 中 id 为 从 和 点 标识 
符 ， 之 后 主 节 点 从 任务 列表 中 删除 该 任务 节点 。 上 面 的 例子 中 ， 其 中 
删除 znode 闻 操 的 代码 采用 了 我 们 之 前 讲 到 的 模式 的 代码 。 


当主 厄 点 为 某 个 标识 符 为 id 的 从 节点 创建 任务 分 配 节 点 时 ,假设 从 
节点 在 任务 分 配 节 点 (/assign/work-id) 上 注册 了 监视 点 ，ZooKeeper 会 
回 从 节点 发 送 一 个 通知 。 


注意 ， 主 市 点 在 成 功 分 配 任 务 后 ， 会 删除 /tasks 市 点 下 对 应 的 任 
务 。 这 种 方式 简化 了 主 节 点 角色 接收 新 任务 并 分 配 的 设计 ， 如 果 任 务 
列表 中 混合 的 已 分 配 和 未 分 配 的 任务 ， 主 市 点 还 需要 区 分 这 些 任务 。 


444 ”从 节点 等 待 分 配 新 任务 


从 节点 第 一 步 需 要 先 癌 ZooKeeper 注 册 自 己 ， 如 我 们 之 前 已 经 讨论 
过 的 ， 在 /workers 方 点 下 创建 一 个 子 节 点 : 


void register() { 
zk.create("/workers/worker-" + ServerId ， 
new byte[0], 
Ids.OPEN_ACL_UNSAFE, 
CreateMode.EPHEMERAL, 
createWorkerCallback, null); @® 


} 
StringCallback createWorkerCallback = new StringCallback() { 
public void processResult(int rc, String path, Object ctx, String name) { 
switch (Code.get(rc)) { 
case CONNECTIONLOSS: 
register(); © 


break; 
case OK: 
LOG.info("Registered successfully: " + serverId); 
break; 
case NODEEXISTS: 
LOG.warn("Already registered: " + serverId); 
break; 
default: 
LOG.error("Something went wrong: " + 
KeeperException.create(Code.get(rc), path)); 


}; 


(通过 创建 一 个 znode 闻 点 来 注册 从 节点 。 


G@) 重 试 ， 注 意 再 次 注册 不 会 有 问题 ， 因 为 如 果 znode 节 点 已 经 存 
在 ， 我 们 会 收 到 NODEEXISTS 事 件 。 


添加 该 znode 世 点 会 通知 主 季 点， 这 个 从 和 点 的 状态 是 活跃 的 ， 且 
已 准备 好 处 理 任务 。 注 意 我 们 并 未 使 用 第 3 章 中 介绍 的 空 末 /忙碌 
(idle/busy) 状态 ， 只 是 为 了 该 示例 的 1 简化。 


同样 ， 我 们 还 创建 了 /assign/work-id 节 点 ， 这 样 ， 主 节点 可 以 为 这 
个 从 节操 分配 任务 。 如 果 我 们 在 创建 /assign/worker-id 节 点 之 前 创建 
了 /workers/workeridT 点 ， 我 们 可 能 会 陷入 以 下 情况 ， 主 和 点 符 试 分 配 
任务 ， 因 分 配 节 点 的 父 忆 点 还 没有 创建 ， 导 致 主 世 点 分 配 失败 。 为 了 


避免 这 种 情况 ， 我 们 需要 先 创建 /assign/worker-id 市 点 ， 而 且 从 节点 需 
要 在 /assign/worker-id 节 点 上 设置 监视 点 来 接收 新 任务 分 配 的 通知 。 


一 旦 有 任务 列表 分 配给 从 节点 ， 从 节点 束 会 从 /assign/worker-id 获 
取 任 务 信息 并 执行 任务 。 从 节点 从 本 地 列表 中 获取 每 个 任务 的 信息 并 
验证 任务 是 否 还 在 得 执行 的 队列 中 ， 从 节点 保存 一 个 本 地 待 执 行 任务 
的 列表 束 是 为 了 这 个 目的 。 注 意 ， 为 了 释放 回调 方法 的 线程 ， 我 们 在 
单独 的 线程 对 从 市 点 的 已 分 配 任务 进行 人 循环， 否则 ， 我 们 会 阻塞 其 他 
的 回调 方法 的 执行 。 示 例 中 ， 我 们 使 用 了 Java 的 ThreadPoolExecutor 类 
分 配 一 个 线程 ， 该 线程 进行 任务 的 循环 操作 : 


Watcher newTaskwWatcher = new Watcher() { 
public void process(WatchedEvent e) { 
if(e.getType() == EventType.NodeChildrenChanged) { 
assert new String("/assign/worker-"+ serverId).equals( e.getPath() ); 
getTasks();@® 


} 


} 
}; 
void getTasks() { 
zk.getchildren("/assign/worker-" + serverId, 
newTaskWatcher, 
tasksGetChildrenCallback, 
null); 


} 
ChildrenCallback tasksGetChildrenCallback = new ChildrenCallback() { 
public void processResult(int rc, 
String path, 
Object ctx, 
List<String> children) { 
switch(Code.get(rc)) { 
case CONNECTIONLOSS: 
getTasks(); 
break; 
case OK: 
if(children != null) { 
executor.execute(new Runnable() {® 


List<String> children; 

DataCallback cb; 

public Runnable init (List<String> children, 

DataCallback cb) { 

this.children = children; 
this.cb = cb; 
return this; 

} 

public void run() { 
LOG.info("Looping into tasks"); 
synchronized(onGoingTasks) { 

for(String task : children) {® 


if(!onGoingTasks.contains( task )) { 
LOG.trace("New task: {}", task); 
zk.getData("/assign/worker-" + 
serverId + "/" + task, 
false, 


onGoingTasks.add( task );© 


} 
} 
} 
} 

} 

.init(children, taskDataCallback)); 
} 
break; 

default: 


System.out.printin("getChildren failed: " + 
KeeperException.create(Code.get(rc), path)); 


(DD 当 收 到 子 市 点 变化 的 通知 后 ， 获 得 子 节 点 的 列表 。 


单独 线程 中 执行 。 

OQMA FI RIIK ° 

出 获得 任务 信息 并 执行 任务 。 

(3) 将 正在 执行 的 任务 添加 到 执行 中 列表 ， 防 止 多 次 执行 。 
注意 : 会 话 事件 和 监视 点 


当 我 们 与 服务 端的 连接 断 开 时 CBA, ARS MARY), EENE 
接 重新 建立 前 ， 不 会 传送 任何 监视 点 。 因 此 ， 会 话 事件 
CONNECTIONLOSS 会 发 送 给 所 有 已 知 的 监视 点 进行 处 理 。 一 般 来 
说 ， 应 用 使 用 会 话 事件 进入 安全 模式 : ZooKeeper 客 户 端 在 失去 连接 后 
不 会 接收 任何 事件 ， 因 此 客户 端 需要 继续 保持 这 种 状态 。 在 我 们 的 主 
从 应 用 的 例子 中 ， 处 理 提 交 任 务 外 ， 其 他 所 有 动作 都 是 被 动 的 ， 所 以 
如 果 主 节点 或 从 节点 发 生 连 接 断 开 时 ， 不 会 触发 任何 动作 。 而 且 在 连 
接 断 开 时 ， 主 从 应 用 中 的 客户 端 也 无 法 提交 新 任务 以 及 接收 任务 状态 
的 通知 。 


4.4.5 BP wae HES AMT AR 


假设 应 用 客户 端 已 经 提交 了 一 个 任务 ， 现 在 客户 端 需要 知道 该 任 
务 何 时 被 执行 ， 以 及 任务 状态 。 回 忆 之 前 所 讨论 的 ， 从 市 点 执行 执行 


一 个 任务 时 ， 会 在 /status 下 创建 一 个 znode 节 点 。 让 我 们 先 看 下 提交 任 
务 执行 的 代码 : 


void submitTask(String task, TaskObject taskCtx) { 
taskCtx.setTask(task); 
zk.create("/tasks/task-", 
task.getBytes(), 
Ids.OPEN_ACL_UNSAFE, 
CreateMode.PERSISTENT_SEQUENTIAL, 
createTaskCallback, 
taskCtx);@ 


} 
StringCallback createTaskCallback = new StringCallback() { 
public void processResult(int rc, String path, Object ctx, String name) { 
switch (Code.get(rc)) { 
case CONNECTIONLOSS: 
submitTask(((TaskObject) ctx).getTask(), 
(TaskObject) ctx);@ 


break; 
case OK: 
LOG.info("My created task name: " + name); 
((TaskObject) ctx).setTaskName(name) ; 
watchStatus("/status/" + name.replace("/tasks/", ""), 
ctx);® 


break; 
default: 
LOG.error("Something went wrong" + 
KeeperException.create(Code.get(rc), path)); 


}; 


QD) 与 之 前 的 ZooKeeper 调 用 不 同 ， 我 们 传递 了 一 个 上 下 文 对 象 ， 该 
对 象 为 我 们 实现 的 Task 类 的 实例 。 


人 连接 丢失 时 ， 再 次 提交 任务 ， 注 意 重 新 提交 任务 可 能 会 导致 任 
务 重 复 。 


(3 为 这 个 任务 的 znode 广 点 设置 一 个 监视 点 。 


注意 : 有 序 节 点 是 否 创建 成 功 ? 


在 创建 有 序 节 点 时 发 生 CONNECTIONLOSS 事 件 ， 处 理 这 种 情况 
比较 琼 手 ， 因 为 ZooKeeper 每 次 分 配 一 个 序列 号 ， 对 于 连接 断 开 的 客户 
端 ， 无 法 确认 这 个 节点 是 否 创建 成 功 ， 尤 其 是 在 其 他 客户 端 一 同 并 发 
请 求 时 (我 们 提 到 的 并 发 请 求 是 指 多 个 客户 端 进行 相同 的 请 求 ) 。 为 
了 解决 这 个 问题 ， 我 们 需要 添加 一 些 提示 信息 来 标记 这 个 znode 市 点 的 
创建 者 ， 比 如 ， 在 任务 名 称 中 加 入 服务 器 ID 等 信息 ， 通 过 这 个 方法 ， 
我 们 就 可 以 通过 获取 所 有 任务 列表 来 确认 任务 是 否 添 加 成 功 。 


我 们 检查 状态 节点 是 否 已 经 存在 (也 许 任 务 很 快 处 理 完成 ， 并 
设置 监视 点 。 我 们 提供 了 一 个 收 到 znode 节 点 创建 的 通知 时 进行 处 理 的 
监视 点 的 实现 和 一 个 exists 方 法 的 回调 实现 : 


ConcurrentHashMap<String, Object> ctxMap = 
new ConcurrentHashMap<String, Object>(); 
void watchStatus(String path, Object ctx) { 
ctxMap.put(path, ctx); 
zk.exists(path, 
statuswWatcher, 
existsCallback, 
ctx);® 


Watcher statuswWatcher = new Watcher() { 
public void process(WatchedEvent e) { 
if(e.getType() == EventType.NodeCreated) { 

assert e.getPath().contains("/status/task-"); 

zk.getData(e.getPath(), 
false, 
getDataCallback, 
ctxMap.get(e.getPath())); 


} 
}; 
StatCallback existsCallback = new StatCallback() { 
public void processResult(int rc, String path, Object ctx, Stat stat) { 
switch (Code.get(rc)) { 
case CONNECTIONLOSS: 
watchStatus(path, ctx); 
break; 
case OK: 
if(stat != null) { 
zk.getData(path, false, getDataCallback, null);® 


break; 
case NONODE: 
break; © 
default: 
LOG.error("Something went wrong when " + 
"checking if the status node exists: " + 
KeeperException.create(Code.get(rc), path)); 
break; 


}; 


(客户 端 通过 该 方法 传递 上 下 对 象 ， 当 收 到 状态 节操 的 通知 时 ， 
就 可 以 修改 这 个 表示 任务 的 对 象 (TaskObject) 。 


人 状态 节点 已 经 存在 ， 因 此 客户 端 获取 这 个 节点 信息 。 


/ 


(3 如 有 果 状 态 市 点 不 存在 ， 这 是 常见 情况 ， 客 户 端 不 进行 任何 操 
作 。 


4.5 APA ALT ZU: Multiop 


Mnultiop 并 非 ZooKeeper 的 原始 设计 ， 该 特性 在 3.4.0 版 本 中 被 添加 
进来 。 Multiop 可 以 原子 性 地 执行 多 个 ZooKeeper 的 操作 ， 执 行 过 程 为 
原子 性 ， 即 在 multiop 代 码 块 中 的 所 有 操作 要 不 全 部 成 功 ， 要 不 全 部 失 
败 。 例 如 ， 我 们 在 一 个 multiop 块 中 删除 一 个 父 布 点 以 及 其 子 节 上 后， 执 
行 结 果 只 可 能 是 这 两 个 操作 都 成 功 或 都 失败 ， 而 不 可 能 是 父 玉 点 被 删 
除 而 子 节 点 还 存在 ， 或 子 世 点 被 删除 而 父 忆 点 还 存在 。 


使 用 multiop 特 性 : 


1. 创 建 一 个 Op 对 象 ， 该 对 象 表示 你 想 通过 multiop 方 法 执行 的 每 个 
ZooKeeper 操 作 ，ZooKeeper 提 供 了 每 个 改变 状态 操作 的 Op 对 象 的 实 


现 : create、delete 和 setData ° 


2. 通 过 Op 对 象 中 提供 的 一 个 静态 方法 调用 进行 操作 。 

3. 将 Op 对 象 添 加 到 Java 的 Iterable 类 型 对 象 中 ， 如 列表 (List) ° 
4. 使 用 列表 对 象 调用 multi 方 法 。 

以 下 示例 说 明 这 个 过 程 : 


Op deleteZnode(String z) {® 


return Op.delete(z, -1);@ 


} 


List<OpResult> results = zk.multi(Arrays.asList(deleteZnode("/a/b"), 
deleteZnode("/a"));® 


QQ 为 delete 方 法 创建 Op 对 象 。 
@) 通 过 对 应 的 Op 方法 返回 对 象 。 


(3) 以 列表 方式 传 入 每 个 delete 操 作 的 元 素 执行 multi 方 法 。 


调用 multi 方 法 返回 一 个 OpResult 对 象 的 列表 ， 每 个 对 象 对 应 每 个 
操作 。 例 如 ， 对 于 delete 操 作 ， 我 们 使 用 DeleteResult 类 ， 该 类 继承 自 
OpResult， 通 过 每 种 操作 类 型 对 应 的 结果 对 象 暴露 方法 和 数据 。 
DeleteResult 对 象 仅 提供 了 equals 和 hashCode 方 法 ， 而 CreateResult 对 象 
ROW 
回 一 个 包含 错误 码 的 ErrorResult 类 的 实例 。 


multi 方 法 同样 也 有 异步 版 本 ， 以 下 为 同步 方法 和 异步 方法 的 定 
X: 


public List<OpResult> multi(Iterable<Op> ops) throws InterruptedException, 


KeeperException; 
public void multi(Iterable<Op> ops, MultiCallback cb, Object ctx); 


Transaction 封 装 了 mnulti 方 法 ， 提 供 了 简单 的 接口 。 我 们 可 以 创建 
Transaction 对 象 的 实例 ， 添 加 操作 ， 提 交 事 务 。 使 用 Transaction 重 写 上 
一 示例 的 代码 如 下 : 


Transaction t = new Transaction(); 
t.delete("/a/b", -1) 
t.delete("/a", -1); 

List<OpResult> results = t.commit(); 


了 


commit 方 法 同样 也 有 一 个 异步 版 本 的 方法 ， 该 方法 以 
MultiCallback 对 象 和 上下文 对 象 为 输入 : 


public void commit(MultiCallback cb, Object ctx); 


mnultiop 可 以 简化 不 止 一 处 的 主 从 模式 的 实现 ， 当 分 配 一 个 任务 ， 
在 之 前 的 例子 中 ， 主 万 点 会 创建 任务 分 配 节 点 ， 然 后 删除 /tasks 下 对 应 
ERTA o WREE tasks PITA, ETRA, MAEA 


个 已 分 配 的 任务 还 在 /tasks 下 。 使 用 multiop ， 我 们 可 以 原子 化 创建 任务 
分 配 市 点 和 删除 /tasks 下 对 应 的 任务 节点 这 两 个 操作 。 使 用 这 个 方式 ， 
我 们 可 以 保证 没有 已 分 配 的 任务 还 在 /tasks 记 点 下 ， 如 采 备 份 万 点 接管 
了 主 节点 角色 ， 就 不 用 再 区 分 /tasks 下 的 任务 是 不 是 没有 分 配 的 。 


multiop 提 供 的 另 一 个 功能 是 检查 一 个 znode 点 的 版 本 ， 通 过 
multiop 可 以 同时 读 取 的 多 个 万 点 的 ZooKeeper 状 态 并 回 写 数据 一 一 如 
回 写 某 些 读 取 到 的 数据 信息 。 当 被 检查 的 znode 版 本 号 没有 变化 时 ， 束 
可 以 通过 mnultiop 调 用 来 检查 没有 被 修改 的 znode 世 点 的 版 本 号 ， 这 个 功 
能 非常 有 用 ， 如 在 检查 一 个 或 多 个 znode 下 点 的 版 本 号 取决 于 另外 一 个 
znode 下 点 的 版 本 号 时 。 在 我 们 的 主 从 模式 的 示例 中 ， 主 节点 需要 让 客 
户 端 在 主 和 点 指定 的 路 径 下 于、 加 新任 务 ， 例 如 ， 主 节点 要 求 客 户 站 
在 /task-mid 的 子 广 感 中 添加 新 任务 节操 ， 其 中 mid 为 主 节 点 的 标识 符 ， 

主 世 点 在 /master-path 厅 点 中 保存 这 个 路 径 的 数据 ， 客 户 端 在 添加 新 任 
务 前 ， 需 要 先 读 取 /master-path 的 数据 ， 并 通过 Stat 获 取 这 个 市 点 的 版 本 
号 信息 ， 然 后 ， 客 户 端 通过 multiop 的 部 分 调用 方式 在 /task-mid 节 点 下 
添加 新 任务 节点 ， 同 时 会 检查 /master-path 的 版 本 号 是 否 与 之 前 读 取 的 
相 匹配 。 


check 方 法 的 定义 与 setData 方 法 相似 ， 只 是 没有 data 参 数 : 


public static Op check(String path, int version); 


如 果 输 入 的 path 的 znode 节 点 的 版 本 号 不 匹配 ，multi 调 用 会 失败 。 
通过 以 下 简单 的 示例 代码 ， 我 们 来 说 明 如 何 实 现 上 面 所 讨论 的 场景 : 


byte[] masterData = zk.getData("/master-path", false, stat);@ 


String parent = new String(masterData) ;@ 


zk.multi(Arrays.asList(Op.check("/master-path", stat.getVersion()), 
Op.create(, modify(ziData),-1),® 


获取 /master 节 点 的 数据 。 


@) 从 /master 节 点 获得 路 径 信息 。 


(3 两 个 操作 的 multi 调 用 。 


ER, WRR master APOE SIDR RAB ia, A 
LATSURICIEIE ATT, ANMED AES Bl master, Mis 
致 /master 的 版 本 号 始终 为 1 


从 应 用 的 角度 来 看 ， 客 户 端 每 次 都 是 通过 访问 ZooKeeper 来 获取 给 
定 znode 节 点 的 数据 、 一 个 znode 节 点 的 子 节 点 列表 或 其 他 相关 的 
ZooKeeper 状 态 ， 这 种 方式 并 不 可 取 。 反 而 更 高 效 的 方式 为 客户 端 本 地 
缓存 数据 ， 并 在 需要 时 使 用 这 些 数 据 ， 一 旦 这 些 数 据 发 生变 化 ， 你 让 
ZooKeeper 通 知客 户 疹 ， 客 户 端 束 可 以 更 痢 缓 存 的 数据 。 这 些 通知 与 我 
们 之 前 所 讨论 的 一 样 ， 应 用 的 客户 端 通过 注册 监视 点 来 接收 这 些 通知 
消 轧 。 总 之 ， 监 视点 可 以 让 客户 端 在 本 地 缓存 一 个 版 本 的 数据 E 
如 ， 一 个 znode 贡 点 数据 或 节点 的 子 节 点 列表 信息 ) ， 并 在 数据 发 生变 
化 时 接收 到 通知 来 进行 更 新 。 


ZooKeeper 的 设计 首 还 可 以 采用 男 一 种 方式 ， 客 户 端 透明 地 级 存 客 
户 端 访问 的 所 有 ZooKeeper 状 态 ， 并 在 更 新 缓存 数据 时 将 这 些 数据 置 为 
无 效 。 实 现 这 种 缓存 一 致 性 的 方案 代价 非常 大 ， 因 为 客户 端 也 许 并 不 
需要 缓存 所 有 它们 所 访问 的 ZooKeeper 状 态 ， 而 且 服 务 端 需要 将 缓存 状 
态 置 为 无 效 ， 为 了 实现 失效 机 制 ， 服 务 端 不 得 不 关注 每 个 客户 端 中 组 
存 的 信息 ， 并 广播 失效 请 求 。 客 户 端 数量 很 大 时 ， 这 两 方面 的 代价 都 
非常 大 ， 而 且 我 们 认为 这 样 也 十 不 可 取 的 。 


不 管 是 哪 部 分 负责 管理 客户 端 缓 存 ，ZooKeeper 直 接管 理 或 
ZooKeeper 应 用 来 管理 ， 都 可 以 通过 同步 或 异步 方式 进行 更 新 操作 的 客 
户 端 通知 。 同 步 方式 使 所 有 持 有 该 状态 拷贝 的 客户 端 中 的 状态 无 效 ， 
这 种 方式 效率 很 低 ， 因 为 客户 端 往往 以 不 同 的 速度 运行 中 ， 因 此 缓慢 
的 客户 端 会 强制 其 他 客户 端 进行 等 待 ， 随 着 客户 端 越 来 越 多 ， 这 种 差 
异 就 会 更 加 频繁 发 生 。 


设计 者 选择 的 通知 方式 可 视 为 一 种 在 客户 内 一 侧 使 ZooKeeper 状 态 
失效 的 异步 方式 ，ZooKeeper 将 给 客户 妆 的 通知 消 居 队 列 化 ， 这 些 通知 
会 以 异步 的 方式 进行 消费 。 这 种 失效 方案 也 是 可 选 方案 ， 应 用 程序 中 
需要 解决 ， 对 于 任何 给 定 的 客 己 痢 ， 哪 些 部 分 ZooKeeper 状 态 需 要 置 为 
无 效 。 这 种 设计 的 选择 更 适合 ZooKeeper 的 应 用 场景 。 


4.7 ”顺序 的 保障 


在 通过 ZooKeeper 实 现 我 们 的 应 用 时 ， 我 们 还 要 牢记 一 些 很 重要 的 
涉及 顺序 性 的 事项 。 


47.1 ” 写 探 作 的 顺序 


ZooKeeper 状 态 会 在 所 有 服务 端 所 组 成 的 全 部 安装 中 进行 复制 。 服 
务 闪 对 状态 变化 的 顺序 达成 一 致 ， 并 使 用 相同 的 顺序 执行 状态 的 更 
a r 
人 态 变 化 之 后 再 删除 /z 市 点 的 状态 变化 这 个 顺序 的 操作 ， 所 有 的 在 集 
的 服务 端 均 需 以 相同 的 顺序 执行 这 些 变化 。 


所 有 服务 端 并 不 需要 同时 执行 这 些 更 新 ， 而 且 事 实 上 也 很 少 这 样 
操作 。 服 务 端 更 可 能 在 不 同时 间 执 行 状态 变化 ， 因 为 它们 以 不 同 的 速 
度 运行 ， 即 使 它们 运行 在 同 种 硬件 下 。 有 很 多 原因 会 导致 这 种 时 请 发 
生 ， 如 操作 系统 的 调度 、 后 台 任 务 


对 于 应 用 程序 来 说 ， 在 不 同时 间 点 执行 状态 更 新 并 不 是 问题 ， 因 
为 它们 会 感知 到 相同 的 更 新 顺序 。 应 用 程序 也 可 能 感知 这 一 顺序 ， 但 
如 果 ZooKeeper 状 态 通过 隐藏 通道 进行 通信 时 ， 我 们 将 在 后 续 章 节 进 行 


讨论 。 


4.7.2 ERER 


ZooKeeper 客 户 端 总 是 会 观察 到 相同 的 更 新 顺序 ， 即 使 它们 连接 到 
不 同 的 服务 端 上 。 但 是 客户 端 可 能 是 在 不 同时 间 观 察 到 了 更 新 ， 如 果 
他 们 还 在 ZooKeeper 以 外 通信 ， 这 种 差异 就 会 更 加 明显 。 


让 我 们 考虑 以 下 场景 : 
客户 端 cl 更 新 了 /z 世 点 的 数据 ， 并 收 到 应 答 。 


Pvc, 通过 TCP 的 直接 连接 告知 客户 端 cx ，/z 玫 点 状态 发 生 了 
变化 。 


-客户 端 c 读 取 /z 节 点 的 状态 ， 但 是 在 ci 更 新 之 前 就 观察 到 了 这 个 
状态 。 


我 们 称 之 为 隐藏 通道 (hidden channel) ， 因 为 ZooKeeper 并 不 知道 
客户 端 之 间 额 外 的 通信 。 现 在 c, 获得 了 过 期 数据 ， 图 4-2 描 述 了 这 种 情 
W o 
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Q 7ookeeper 以 多 数 原则 在 服务 端 进行 复制 ， 我 们 为 了 简化 
图 示 ， 省 略 了 复制 协议 的 消息 。 

OTETA 

G) C 读 取 到 的 为 过 期 (即使 顺序 一 致 ) 的 值 。 


图 4-2: 隐藏 通 道 问题 的 例子 


为 了 避免 读 取 到 过 去 的 数据 ， 我 们 建议 应 用 程序 使 用 ZooKeeper 进 
行 所 有 涉及 ZooKeeper 状 态 的 通信 。 例 如 ， 为 了 避免 刚刚 插 述 的 场景 ， 
co 可 以 在 /z 让 点 设置 监视 点 来 代替 从 ci 直接 接收 消息 ， 通 过 监视 点 ，c 
束 可 以 知道 /z 太 点 的 变化 ， 从 而 消除 隐藏 通道 的 问题 。 


4.7.3 ”通知 的 顺序 


ZooKeeper 对 通知 的 排序 涉及 其 他 通知 和 异步 响应 ， 以 及 对 系统 状 
态 更 新 的 顺序 。 如 ZooKeeper 对 两 个 状态 更 新 进行 排序 ，u 和 uw，u' 紧 随 u 
之 后 ， 如 果 u 和 u 分 别 修改 了 /am 点 和 mb 帮 点 ， 其 中 客户 端 c 在 /af 点 设置 


了 监视 点 ，c 只 能 观察 到 u' 的 更 新 ， 即 接收 到 u 所 对 应 通知 后 读 取 /b 节 


这 种 顺序 可 以 使 应 用 通过 监视 点 实现 安全 的 参数 配置 。 假 设 一 个 
znode 节 点 /z 被 创建 或 删除 表示 在 ZooKeeper 中 保存 的 一 些 配 置信 息 变 为 
无 效 的 。 在 对 这 个 配置 进行 任何 实际 更 新 之 前 ， 将 创建 或 删除 的 通知 
发 给 客户 端 ， 这 一 保障 非常 重要 ， 可 以 确保 客户 端 不 会 读 取 到 任何 无 
效 配 置 。 


更 具体 一 些 ， 假 如 我 们 有 一 个 znode 节 点 /config， 其 子 节 点 包含 应 
用 配置 元 数据 : /config/m1, /config/m2, , /config/m_n ° 目的 只 是 为 了 
说 明 这 个 例 千 ， 不 管 这 些 znode 世 点 的 实际 内 容 是 什么 。 假 如 主 和 点 应 
用 进程 通过 setData 更 新 每 个 znode 六 点， 且 不 能 让 客户 端 只 读 取 到 部 分 
更 新 ， 一 个 解决 方案 就 是 在 开始 更 新 这 些 配置 前 主 节 点 移 创 建 一 
个 /configjinvalid 六 点 ， 其 他 需要 读 取 这 一 状态 的 客户 端 会 监 
钢 /config/invalid 世 点 ， 如 采 该 世 点 存在 束 不 会 读 取 配 置 状态 ， 当 该 节 
点 被 删除 ， 束 意味 着 有 一 个 新 的 有 效 的 配置 节点 集合 可 用 ， 客 户 端 可 
以 进行 读 取 该 集合 的 操作 。 


对 于 这 个 具体 的 例子 ， 我 们 还 可 以 使 用 multiop 来 对 /config/m[1-n] 
这 些 市 点 原子 地 执行 所 有 setData 操 作 ， 而 不 是 使 用 一 个 znode 节 点 来 标 
识 部 分 修改 的 状态 。 在 例子 中 的 原子 性 问题 ， 我 们 可 以 使 用 multiop 代 


丛 对 额外 znode 世 点 或 通知 的 依赖 ， 不 过 通知 机 制 非常 通用 ， 而 且 并 未 
约束 为 原子 性 的 。 


因为 ZooKeeper 根 据 触发 通知 的 状态 更 新 对 通知 消息 进行 排序 ， 客 
户 问 束 可 以 通过 这 些 通知 感知 到 真正 的 状态 变化 的 顺序 。 


注意 : 活性 与 安全 性 


在 本 章 中 ， 因 活性 广泛 使 用 了 通知 机 制 。 活 性 (liveness) 会 确保 
系统 最 终 取 得 进展 。 痢 任务 和 新 的 从 节点 的 通知 只 是 关于 活性 的 事件 
的 例子 。 如 有 果 主 节点 没有 对 新 任务 进行 通知 ， 这 个 任务 束 永 远 不 会 被 
执行 ， 至 少 从 提交 任务 的 客户 端的 视角 来 看 ， 已 提交 的 任务 没有 执行 
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原子 更 新 一 组 配置 节点 的 例子 中 ， 情 况 不 太一 样 : 这 个 例子 涉及 
安全 性 ， 而 不 是 活性 。 在 更 新 中 读 取 znode 世 点 可 能 会 导致 客户 端 到 非 
一 致 性 配置 信息 ， 而 invalidT 总 可 以 确 傈 只 有 当 合法 配置 信息 有 效 时 ， 
客户 站 才 读 取 正 确 状 态 。 

在 我 们 看 到 的 关于 活性 的 例子 中 ， 通 知 的 传送 顺序 并 不 是 特别 重 
要 ， 只 要 最 终 客 户 端 最 终 获 知 这 些 事件 殉 可 以 继续 取得 进展 。 不 过 万 
了 安全 性 ， 不 按 顺序 接收 通知 也 许 会 导致 不 正确 的 行为 。 


4.8 监视 点 的 手 群 效应 和 可 扩展 性 


有 一 个 问题 需要 注意 ， 当 变化 发 生 时 ，ZooKeeper 会 触发 一 个 特定 
的 znode 节 点 的 变化 导致 的 所 有 监视 点 的 集合 。 如 果 有 1000 个 客户 端 通 
过 exists 操 作 监 视 这 个 znode 广 点 ， 那 么 当 znode 广 点 创建 后 束 会 发 送 
1000 个 通知 ， 因 而 被 监视 的 znode 节 点 的 一 个 变化 会 产生 一 个 尖峰 的 通 
知 ， 该 尖峰 可 能 市 来 影响 ， 例 如 ， 在 尖峰 时 刻 提交 的 操作 延 返 。 可 能 
的 话 ， 我 们 建议 在 使 用 ZooKeeper 上 时， 避免 在 一 个 特定 广 点 设置 大 量 的 
监视 点 ， 最 好 是 每 次 在 特定 的 znode 节 点 上 ， 只 有 少量 的 客户 端 设 置 监 


视点 ， 理 想 情 况 下 最 多 只 设置 一 个 。 


解决 该 问题 的 方法 并 不 适用 于 所 有 的 情况 ， 但 在 以 下 情况 下 可 能 
很 有 用 。 假 设 有 n 个 客户 端 争 相 获 取 一 个 锁 〈 例 如 ， 主 节点 锁 ) 。 为 了 
获取 锁 ， 一 个 进程 试 着 创建 /lock 节 点 ， 如 果 znode 节 点 存在 了 ， 客 户 端 
就 会 监视 这 个 znode 节 点 的 删除 事件 。 当 /lock 被 删除 时 ， 所 有 监视 /lock 
节点 的 客户 端 收 到 通知 。 另 一 个 不 同 的 方法 ， 让 客户 端 创建 一 个 有 序 
的 节点 /lock/lock-， 回 忆 之 前 讨论 的 有 序 季 点 ，ZooKeeper 在 这 个 znode 
节点 上 自动 添加 一 个 序列 号 ， 成 为 /lock/lock-xxx， 其 中 xxx 为 序列 号 。 
我 们 可 以 使 用 这 个 序列 号 来 确定 哪个 客户 端 获得 锁 ， 通 过 判断 /lock 下 
的 所 有 创建 的 子 节点 的 最 小 序列 号 。 在 该 方案 中 ， 客 户 端 通 
过 /getChildren 方 法 来 获取 所 有 /lock 下 的 子 节点 ， 并 判断 自己 创建 的 节 


点 是 否 是 最 小 的 序列 号 。 如 果 客 户 端 创建 的 节点 不 是 最 小 序列 号 ， 就 
根据 序列 号 确定 序列 ， 并 在 前 一 个 节点 上 设置 监视 点 。 例 如 : 假设 我 
们 有 三 个 节点 : /lock/lock-001、/lock/lock-002 和 /lock/lock-003， 在 这 个 
例子 中 情况 如 下 : 


.创建 4oclvlock-001 的 客户 端 获 得 锁 。 


.创建 /loclwvlock-002 的 客户 端 监视 /loclvylock-001 点 。 


.创建 /loclvlock-003 的 客户 端 监视 /loclvylock-002 节 点 。 


这 样 ， 每 个 节点 上 设置 的 监视 点 只 有 最 多 一 个 客户 端 。 


另 一 方面 需要 注意 的 问题 ， 就 是 当 服务 端 一 侧 通 过 监视 点 产生 的 
状态 变化 。 设 置 一 个 监视 点 需要 在 服务 端 创建 一 个 Watcher 对 象 ， 根 据 
YourKit (http://www.yourkit.com/) 的 分 析 工 具 所 分 析 ， 设 置 一 个 监视 
点 会 使 服务 端的 监视 点 管理 器 的 内 存 消耗 上 增加 大 约 250 到 300 个 字 
他， 设置 非常 多 的 监视 点 意味 着 监视 点 管理 器 会 消耗 大 量 的 服务 器 内 
存 。 例 如 ， 如 果 存 在 一 百 万 个 监视 点 ， 估 计 会 消耗 0.3GB 的 内 存 ， 
此 ， 开 发 者 必须 时 刻 注意 设置 的 监视 点 数量 。 
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在 分 布 式 系 统 中 ， 存 在 很 多 种 触发 一 些 动 作 的 事件 。ZooKeeper 提 
供 了 跟 踩 重要 事件 的 有 效 机 制 ， 使 系统 中 的 进程 可 以 根据 事件 进行 相 
应 的 处 理 。 如 我 们 之 前 所 讨论 的 正常 流程 的 应 用 (如 ， 任 务 的 执行 ) 
或 崩 江 故障 的 处 理 METRA) 。 


我 们 使 用 到 的 ZooKeeper 的 一 个 重要 功能 便 是 通知 
(notifications) 。ZooKeeper 客 户 端 通过 ZooKeeper 来 注册 监视 点 ， 在 
ZooKeeper 状 态 变 化 发 生 时 ， 接 收 通知 。 通 知 的 传送 顺序 很 重要 ， 客 户 
端 不 可 以 自己 通过 某 些 方式 观察 ZooKeeper 状 态 变 化 的 顺序 。 


在 同时 处 理 多 个 变化 的 调用 时 ， 一 个 很 有 用 的 功能 便 是 multi 方 
法 。 这 个 功能 使 我 们 可 以 一 次 执行 多 个 操作 ， 以 便 在 客户 端 对 事件 进 
行 啊 应 并 改变 ZooKeeper 的 状态 时 ， 避 免 在 分 布 式 应 用 的 竞 态 条 件 。 


我 们 希望 大 多 数 应 用 采用 我 们 之 前 所 讨论 的 模式 ， 即 使 是 该 模式 
的 各 种 变 体 也 可 以 。 我 们 专注 于 异步 API， 并 且 建 议 开 发 者 也 使 用 异 
步 的 方式 ， 异 步 API 可 以 让 应 用 程序 更 有 效 地 使 用 ZooKeeper 资 源 ， 同 
时 获得 更 高 的 性 能 。 


第 5 章 ”故障 处 理 


如 宁 故 障 永远 不 发 生 ， 那 么 生活 将 变 得 更 加 人 简单。 当然 ， 没 有 了 
故障 ， 对 ZooKeeper 的 很 多 需求 也 束 不 存在 了 。 为 了 有 效 使 用 
ZooKeeper， 我 们 就 需要 了 解 发 生 的 故障 的 种 类 ， 以 及 如 何 处 理 这 些 故 


障 。 


故障 发 生 的 主要 点 有 三 个 : ZooKeeper 服 务 、 网 络 、 应 用 程序 。 故 
障 恢 复 取 决 于 所 找到 的 故障 发 生 的 具体 位 置 ， 不 过 查找 具体 位 置 并 不 
是 简单 的 事情 。 


如 图 5-1 所 展示 的 简单 结构 ， 只 有 两 个 进程 组 成 应 用 程序 ， 三 个 服 
务 郁 组 成 了 ZooKeeper 的 服务 。 进 程 会 随机 连接 到 其 中 一 个 服务 左 ， 也 
能 断 开 后 再 次 连接 到 另 一 个 不 同 的 服务 右 ， 服 务 融 使 用 内 部 协议 来 
保持 客户 端 之 间 状 仿 的 同步 ， 对 客户 端 芋 现 一 致 性 视图 。 
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图 5-1: 简单 的 分 布 式 应 用 示意 图 


图 5-2 展 示 了 系统 的 不 同 组 件 中 可 能 发 生 的 一 些 故障 。 我 们 更 关心 
如 何 区 分 一 个 应 用 中 不 同类 型 的 故障 ， 例 如 ， 如 果 发 生 网 络 故障 ，ci 
如 何 区 分 网 络 故障 和 ZooKeeper 服 务 终 端 之 间 的 区 别 ? 如 果 ZooKeeper 
服务 中 只 有 si 服务 器 停止 运行 ， 其 他 的 ZooKeeper 服 务 器 还 会 继续 运 
行 ， 如 果 此 时 没有 网 络 问题 ，ci 可 以 连接 到 其 他 的 服务 右上。 不 过 ， 
如 果 ci 无 法 连接 到 任何 服务 器 ， 可 能 是 因为 当前 服务 不 可 用 (也 许 因 
为 集合 中 大 多 数 服务 器 停止 运行 ) ， 或 因为 网 络 故障 导致 。 


ers, ZKServers, ZK Servers, 


Client c, Client c 


图 5-2: 简单 的 分 布 式 系统 的 故障 情况 


这 个 例子 展示 了 并 不 是 所 有 的 基于 组 件 中 发 生 的 故障 都 可 以 被 处 
理 ， 因 此 ZooKeeper 需 要 呈现 系统 视图 ， 同 时 开发 者 也 基于 该 视图 进行 
开发 。 


我 们 再 从 co 的 视角 看 看 图 5-2， 我 们 看 到 网 络 故障 持续 足够 长 的 时 
间 将 会 导致 cl 与 ZooKeeper 之 间 的 会 话 过 期 ， 然 而 即使 c; 实际 上 仍然 活 
着 ，ZooKeeper 还 是 会 因为 cj 无 法 与 任何 服务 器 通信 而 声明 cj 已 经 为 不 
活动 状态 。 如 果 ci 正在 监视 自己 创建 的 临时 性 节点 ， 就 可 以 收 到 ci 终 
止 的 通知 ， 因 此 c, 也 将 确认 ci 已 经 终止 ， 因 为 ZooKeeper 也 是 如 此 通知 
的 ， 即 使 在 这 个 场景 中 ci 还 活着 。 


在 这 个 场景 中 ，c 无 法 与 ZooKeeper 服 务 进行 通信 ， 它 自己 知道 上 自 
己 活着 ， 但 不 无 法 确定 ZooKeeper 是 否 声明 它 的 状态 是 否 为 终止 状态 ， 


因此 必须 以 最 坏 的 情况 进行 假设 。 如 采 ci 进行 其 他 操作 ， 但 已 经 中 止 
的 进程 不 应 该 进行 其 他 操作 〈 例 如 改变 外 部 资源 ) ， 这 样 可 能 会 破坏 
整个 系统 。 如 果 ci 再 也 无 法 重新 连接 到 ZooKeeper 并 发 现 它 的 会 话 已 经 
不 再 处 于 活动 状态 ， 它 需要 确保 整个 系统 的 其 他 部 分 的 一 致 性 ， 并 中 
止 或 执行 重 局 逻辑 ， 以 新 的 进程 实例 的 方式 再 次 连接 。 


注意 : 事后 评测 ZooKeeper 方 案 


事后 评测 ZooKeeper 的 方案 的 确 很 笑 人 。 之 前 也 曾经 这 么 做 过 ， 壮 
憾 的 是 ， 首 移 问 题 具 有 不 确定 性 ， 如 我 们 本 章 之 前 所 介绍 的 。 如 果 是 
ZooKeeper 发 生 错误 ， 事 后 评测 也 许 的 确 猜测 正确 了 ， 但 如 采 
ZooKeeper 正 名 工作 ， 也 许 猜测 结果 是 不 正确 的 。ZooKeeper 梓 指定 为 
真实 性 的 源头 ， 系 统 的 设计 会 更 简单 ， 故 障 也 更 容易 识别 和 诊断 。 


5.1 ”可 恢复 的 故障 


ZooKeeper 圣 现 给 使 用 某 些 状态 鸭 所 有 客户 端 进程 一 致 性 的 状态 视 
图 。 当 一 个 客户 端 从 ZooKeeper 获 得 响应 时 ， 客 户 端 可 以 非常 肯定 这 
啊 应 信息 与 其 他 啊 应 信息 或 其 他 客户 端 所 接收 的 啊 应 均 保 持 一 致 性 。 
有 时 ，ZooKeeper 客 户 端 库 与 ZooKeeper 服 务 的 连接 会 丢失 ， 而 且 无 法 
提供 一 致 性 保障 的 信息 ， 当 客户 问 库 发 现 目 己 处 于 这 种 情况 时 ， 束 会 
使 用 Disconnected 事 件 和 ConnectionLossException 异 和 常 米 表示 自己 无 法 
了 解 当前 的 系统 状态 。 


当然 ，ZooKeeper 客 户 端 库 会 积极 地 尝试 ， 使 自己 离开 这 种 情况 ， 
它 会 不 断 尝试 重新 连接 男 一 个 ZooKeeper 服 务 器 ， 直 到 最 终 重新 建立 了 
会 话 。 一 旦 会 话 重 新 建立 ，ZooKeeper 会 产生 一 个 SyncConnected 事 件 ， 
并 开始 处 理 请 求 。ZooKeeper 还 会 注册 之 前 已 经 注册 过 的 监视 点 ， 并 会 
对 失去 连接 这 段 时 间 发 生 的 变更 产生 监视 点 事件 。 


Disconnected 事 件 和 ConnectionLossException 异 常 的 产生 的 一 个 典 
型 原因 是 因为 ZooKeeper 服 务 器 故障 。 图 5-3 展 示 了 这 种 故障 的 一 个 示 
例 。 在 该 例子 中 ， 客 户 端 连 接 到 服务 器 sy ， 其 中 s, 是 两 个 活动 
ZooKeeper 服 务 器 中 的 一 个 ， 当 s, 发 生 故 障 ， 客 户 端的 Watcher 对 象 就 会 
收 到 Disconnected 事 件 ， 并 且 ， 所 有 进行 中 的 请 求 都 会 返回 
ConnectionLossException 异 常 。 整 个 ZooKeeper 服 务 本 和 号 依然 正常 ， 


为 大 多 数 的 服务 器 仍然 处 于 活动 状态 ， 所 以 客户 端 会 快速 与 新 的 服务 
器 重新 建立 会 话 。 


如 果 客 户 问 没有 进行 中 的 请 求 ， 这 种 情况 只 会 对 客户 端 产 生 很 小 
的 影响 。 紧 随 Disconnected 事 件 之 后 为 SyncConnected 事 件 ， 客 户 端 并 不 
会 注意 到 变化 ， 但 是 ， 如 果 存 在 进行 中 的 请 求 ， 连 接 丢 失 就 会 产生 很 
大 的 影响 。 


和 create /event create /event 
Client c, 


Server s, 


Server s, —— 

Server si © 
© Time 

0O G 创 建 了 一 个 /event。 

@ 服务 器 5 有 一 个 网 络 问题 。 

G) 重新 连接 5。 

@ 重新 创建 了 一 个 /event, 


图 5-3: 连接 丢失 的 例子 


如 有 果 此 时 客户 端正 在 进行 某 些 请 求 ， 比 如 刚刚 提交 了 一 个 create 操 
作 的 请 求 ， 当 连接 丢失 发 生 时 ， 对 于 同步 请 求 ， 客 户 端 会 得 到 


ConnectionLossException 异 常 ， 对 于 异步 请 求 ， 会 得 到 


CONNECTIONLOSS 返 回 码 。 然 而 ， 客 户 端 无 法 通过 这 些 异 间或 返回 


码 来 判断 请 求 是 否 已 经 被 处 理 ， 如 我 们 所 看 到 的 ， 处 理 连接 丢失 会 使 
我 们 的 代码 更 加 复杂 ， 因 为 应 用 程序 代码 必须 判断 请 求 是 否 已 经 完 

成 。 处 理 连 搂 丢 失 这 种 复杂 情况 ， 一 个 非常 糟糕 的 方法 是 简单 处 理 ， 

当 接收 到 ConnectionLossException 异 常 或 CONNECTIONLOSS 返 回 码 
时 ， 客 户 端 停止 所 有 工作 ， 并 重新 启动， 虽然 这 样 可 以 使 代码 更 加 简 
单 ， 但 是 ， 本 可 能 是 一 个 小 影响 ， 却 变 为 重要 的 系统 事件 。 


为 了 说 明 上 面 情况 的 原因 ， 让 我 们 看 一 个 以 90 个 客户 端 进程 连接 
到 一 个 由 3 个 服务 絮 组 成 的 ZooKeeper 和 集群 的 系统 。 如 采 应 用 采用 了 信 
单 却 糟糕 的 方式 ， 现 在 有 一 个 ZooKeeper 服 务 器 发 生 故 障 ，30 个 客户 站 
进程 将 会 关闭 ， 然 后 重启 与 ZooKeeper 的 会 话 ， 更 糟糕 的 是 ， 客 户 端 进 
程 在 还 没有 与 ZooKeeper 连 接 时 束 天 闭 了 了 会话， 因此 这 些 会 话 无 法 被 显 
式 地 关闭 ，ZooKeeper 也 只 能 通过 会 话 超时 来 监测 故障 。 最 后 结果 是 三 
分 之 一 的 应 用 进程 重启 ， 重 启 却 被 延迟 ， 因 为 新 的 进程 必须 等 待 之 前 
旧 的 会 话 过 期 后 才 可 以 获得 锁 。 换 句 话 说， 如 条 应 用 正确 地 处 理 连 接 
丢失 ， 这 种 情况 只 会 产生 很 小 的 系统 损坏 。 


开发 者 必须 知道 ， 当 一 个 进程 失去 连接 后 吏 无 法 收 到 ZooKeeper 的 
更 新 通知 ， 尽 管 这 听 起 来 很 没什么 ,但 是 一 个 进程 也 许 会 在 会 话 丢 失 
时 错过 了 某 些 重要 的 状态 变化 。 图 5-4 展 示 了 这 种 情况 的 例子 。 客 户 端 
cl (FATE, TEL 时 刻 失去 了 连接 ， 但 十 并 没 发 现 这 个 情况 ， 直 到 t 时 
刻 才 声明 为 终止 状态 ， 同 有 时， 会话 在 t 时 刻 过 期 ， 在 ty 时 刻 另 一 个 进程 


MARE, Mt 到 ty 时 刻 旧 的 群 首 并 不 知道 它 目 己 被 声明 为 终止 状态 ， 
而 男 一 个 群 首 已 经 接管 控制 。 


create /leader t 


Client c, - - 
t, 


ZooKeeper 


Clientc, 
create /leader Time 


t， 客 户 端 (与 700Keeper 失 去 连接 。 
t， 通 知客 户 端 6 客 户 端 4 终止。 
t， 客 户 端 6; 成 为 群 首 。 

t， 客 户 端 C 重 连接 Zookeeper 且 发 现 连接 失效 。 


图 5-4: 活动 死 世 点 的 影响 


如 果 开 发 者 不 仔细 处 理 ， 旧 的 群 百 会 继续 担当 群 首 ， 并 且 其 操作 
可 能 与 新 的 群 首相 冲突 。 因 此 ， 当 一 个 进程 接收 到 Disconnected 事 件 
时 ， 在 重新 连接 之 前 ， 进 程 需要 挂 起 群 首 的 操作 。 正 常情 况 下 ， 重 新 
连接 会 很 快 发 生 ， 如 果 客 户 端 失去 连接 持续 了 一 段 时 间 ， 进 程 也 许 会 
选择 关闭 会话， 当然 ， 如 果 客 户 问 失去 连接 ， 关 闭会 话 也 不 会 使 
ZooKeeper 更 快 地 关闭 会 话 ，ZooKeeper 服 务 依然 会 等 待 会 话 过 期 时 间 
过 去 以 后 才 声明 会 话 已 过 期 。 


注意 : 很 长 的 延 时 与 过 期 


当 连 接 丢 失 发 生 时 ， 一 般 情况 都 会 快速 地 重新 连接 到 另 一 个 服务 
器 ， 但 是 网 络 中 断 持 续 了 一 段 时 间 可 能 会 导致 客户 端 重 新 连接 
ZooKeeper 服 务 的 一 个 长 延 时 。 一 些 开发 者 想 要 知道 为 什么 ZooKeeper 
客户 端 库 没有 在 某 些 时 刻 (比如 两 倍 的 会 话 超时 时 间 ) 做 出 判断 ， 够 
了 ， 目 己 天 闭会 请 吧 。 


对 这 个 问题 有 两 个 答案 。 首 先 ，ZooKeeper 将 这 种 策略 问题 的 决策 
权 交 给 开发 者 ， 开 发 者 可 以 很 容易 地 实现 关闭 句柄 这 种 策略 。 其 次 ， 
当 整 个 ZooKeeper 集 合 停机 时 ， 时 间 冻 结 ， 然 而 当 整 个 集合 恢复 了 ， 
话 的 超时 时 间 被 重 置 ， 如 果 使 用 ZooKeeper 的 进程 挂 起 在 那里 ， 它 们 
发 现 长 时 间 超 时 是 因为 ZooKeeper 长 时 间 的 故障 ，ZooKeeper 恢 复 后 ， 
客户 端 回 到 之 前 的 正确 状态 ， 进 程 也 束 不 用 额外 地 重启 延迟 时 间 。 


A 
Ba 
A 
a 


已 存在 的 监视 点 与 Disconnected 事 件 


为 了 使 连接 断 开 与 重 现 建立 会 话 之 间 更 加 平 消 ，ZooKeeper 客 户 闻 
库 会 在 新 的 服务 器 上 重新 建立 所 有 已 经 存在 的 监视 点 。 当 客户 端 连 接 
ZooKeeper 的 服务 器 ， 客 户 闻 会 发 送 监 视点 列表 和 最 后 已 知 的 zxid (最 
终 状 态 的 时 间 戳 ) ， 服 务 器 会 接受 这 些 监 视点 并 检查 znode 市 点 的 修改 
时 间 惟 与 这 些 监视 点 是 否 对 应 ， 如 果 任 何 已 经 监视 的 znode 节 点 的 修改 
时 间 鹤 晚 于 最 后 已 知 的 zxid， 服 务 右 就 会 触发 这 个 监视 点 。 


每 个 ZooKeeper 操 作 都 完全 符合 该 逻辑 ， 除 了 exists。exists 操 作 与 
其 他 操作 不 同 ， 因 为 这 个 操作 可 以 在 一 个 不 存在 的 节点 上 设置 监视 
点 ， 如 采 我 们 仔细 看 前 一 段 中 所 说 的 注册 监视 点 逻辑 ， 我 们 会 发 现存 
在 一 种 错过 监视 总 事件 的 特殊 情况 。 


图 5-5 说 明了 这 种 特殊 情况 ， 导 臻 我们 错过 了 一 个 设置 了 监视 点 的 
Znode 节 点 的 创建 事件 ， 客 户 端 监视 /eventT 点 的 创建 事件 ， 然 而 驶 
在 /event 被 另 一 个 客户 端 创建 时 ， 设 置 了 监视 点 的 客户 端 与 ZooKeeper 
间 失 去 连接 ， 在 这 段 时 间 ， 其 他 客户 站 删除 了 /event， 因 此 当 设置 了 监 
视点 的 客户 端 重新 与 ZooKeeper 建 立 连 接 并 注册 监视 点 ，ZooKeeper 服 
务 絮 已 经 不 存在 /event 廊 后 了 ， 因 此 ， 当 处 理 已 经 注册 的 监视 点 并 判 
汗 [/event 的 监视 时 ， 发 现 没 有 /event 这 个 廊 点 ， 所 以 就 只 是 注册 了 这 个 
监视 点 ， 最 终 导 致 客户 端 错过 了 /event 的 创建 事件 。 因 为 这 种 特殊 情 
况 ， 你 需要 尽量 避免 监视 一 个 znode 世 点 的 创建 事件 ， 如 果 一 定 要 监视 
创建 事件 ， 应 尽量 监视 存活 期 更 长 的 znode 方 点， 否则 这 种 特殊 情况 可 
能 会 伤害 你 。 


reate /event delete /event 


Client a — \ YO 
ZooKeeper Do of ` 
Client c, Po Ae |. 
exists /event null œ > Ce GHEE reestablish 


set watch watches Time 


©) 客户 端 C 检 查 /event 节 点 是 否 存在 并 设置 监视 点 。 
客户 端 G6 与 700Keeper 失 去 连接 。 
G) 客户 端 C 与 ZooKeeper 重 新 建立 连接 .重新 设置 监视 点 。 


图 5-5: 通知 的 特殊 情况 
注意 : 目 动 重 连 处 理 危 害 


有 些 ZooKeeper 的 封 闻 库 通过 简单 的 补 发 命令 目 动 处 理 连接 丢失 的 
故障 ， 有 些 情况 这 样 做 完全 可 以 接受 ， 但 有 些 情 况 可 能 会 导致 错误 的 
结果 。 例 如 ， 如 有 果 /leader 节 点 用 来 建立 领导 权 ， 你 的 程序 在 执行 create 
操作 建立 /leader 点 时 连接 丢失 ， 而 言 目地 重 试 create 操 作 会 导致 第 二 
个 create 操 作 执 行 失 败 ， 因 为 /leader 节 点 已 经 存在 ， 因 此 该 进程 就 会 假 
设 其 他 进程 获得 了 领导 权 。 当 然 ， 如 果 你 知道 这 种 情况 的 可 能 性 ， 也 
了 解 封 疼 库 如 何 工 作 的 ， 你 可 以 识别 并 处 理 这 种 情况 。 有 些 库 过 于 复 
杂 ， 所 以 ， 如 宁 你 使 用 到 了 这 种 库 ， 最 好 能 理解 ZooKeeper 的 原理 以 及 
该 库 提 供给 你 的 保障 机 制 。 


5.2 不 可 恢复 的 故障 


有 时 ， 一 些 更 糟 的 事情 发 生 ， 导 致 会 话 无 法 恢复 而 必须 被 天 闭 。 
这 种 情况 最 常见 的 原因 是 会 话 过 期 ， 男 一 个 原因 是 已 认证 的 会 话 无 法 
再 次 与 ZooKeeper 完 成 认证 。 这 两 种 情况 下 ，ZooKeeper 都 会 丢弃 会 话 
的 状态 。 


对 这 种 状态 丢失 最 明显 的 例子 就 是 临时 性 节点 ， 这 种 节点 在 会 话 
关闭 时 会 被 删除 。 会 话 关 闭 时 ，ZooKeeper 内 部 也 会 丢弃 一 些 不 可 见 的 
状态 。 


当 客 户 端 无 法 提供 适当 的 认证 信息 来 完成 会 话 的 认证 时 ， 或 
Disconnected 事 件 后 客户 端 重 痢 连 接 到 已 过 期 的 会 话 ， 台 会 发 生 不 可 恢 
复 的 故障 。 客 户 端 库 无 法 确定 目 己 的 会 话 是 否 已 经 失败 ， 如 图 5-4 中 所 
看 到 的 ， 直 到 在 t4 时 刻 ， 旧 的 客户 病 才 已 经 失去 连接 ， 之 后 被 系统 其 
他 部 分 声明 为 终止 状态 。 


处 理 不 可 恢复 故障 的 最 简单 方法 束 是 中 止 进程 并 重 局 ， 这 样 可 以 
使 进程 恢复 原状 ， 通 过 一 个 新 的 会 话 重 新 初始 化 目 己 的 状态 。 如 采 该 
进程 继续 工作 ， 首 先 必须 要 清除 与 旧 会 话 关联 的 应 用 内 部 的 进程 状态 
信息 ， 然 后 重新 初始 化 新 的 状态 。 


注意 : 从 不 可 恢复 故障 目 动 恢复 的 危害 


简单 地 重新 创建 ZooKeeper 句 本 以 覆盖 旧 的 句柄 ， 通 过 这 种 方式 从 
不 可 恢复 的 故障 中 目 动 恢 复 ， 这 听 起 来 很 吸引 人 “。 事 实 上 ， 早 期 
ZooKeeper 实 现 殉 是 这 么 做 的 ， 但 是 年 期 用 户 注意 到 这 会 引发 一 些 问 
题 。 认 为 目 己 是 群 首 的 一 个 进程 的 会 话 中 断 ， 但 是 在 通知 其 他 管理 线 
程 它 不 是 群 首 之 前 ， 这 些 线程 通过 新 句柄 操作 那些 只 应 该 被 群 首 访 问 
的 数据 。 为 了 保证 句柄 与 会 话 之 间 一 对 一 的 对 应 天 系 ，ZooKeeper 现 在 
避免 了 这 个 问题 。 有 些 情况 目 动 恢复 机 制 工作 得 很 好 ， 比 如 客户 端 只 
读 取 数据 某 些 情况 ， 但 是 如 采 客 户 端 修改 ZooKeeper 中 的 数据 ， 从 会 话 
故障 中 目 动 恢复 的 危害 惑 非 党 重要 。 


5.3 FRE CASAS ab Be 


ZooKeeper 为 所 有 客户 端 提供 了 系统 的 一 致 性 视图 ， 只 要 客户 端 与 
ZooKeeper 进 行 任何 交互 操作 (我 们 例子 中 所 进行 的 操作 ) ， 
ZooKeeper 都 会 保持 同步 。 然 而 ，ZooKeeper 无 法 保护 与 外 部 设备 的 交 
互 操作 。 这 种 缺乏 保护 的 特殊 问题 的 说 明 ， 在 实际 环境 中 也 经 常 被 发 
现 ， 和 常常 发 生 于 主机 过 载 的 情况 下 。 


当 运 行 客户 端 进程 的 主机 发 生 过 载 ， 就 会 开始 发 生 区 换 、 系 统 题 
化 或 因 已 经 超 负 和 蓓 的 主机 资源 的 竞争 而 导致 的 进程 延 近 ， 这 些 都 会 影 
响 与 ZooKeeper 交 互 的 及 时 性 。 一 方面 ，ZooKeeper 无 法 及 时 地 与 
ZooKeeper 服 务 絮 发 送 心 跳 信息 ， 导 人 致 ZooKeeper 的 会 话 超时 ， 男 一 方 
面 ， 主 机 上 本 地 线程 的 调度 会 导致 不 可 预知 的 调度 : 一 个 应 用 线程 认 
为 会 话 仍然 处 于 活动 状态 ， 并 持 有 主 和 点 ， 即 使 ZooKeeper 线 程 有 机 会 
运行 时 才 会 通知 会 话 已 经 超时 。 


图 5-6 通 过 时 间 轴 展示 了 这 个 环 手 的 问题 。 在 这 个 例子 中 ， 应 用 程 
序 通过 使 用 ZooKeeper 来 确保 每 次 只 有 一 个 主 节 点 可 以 独占 访问 一 个 外 
部 资源 ， 这 是 一 个 很 普遍 的 资源 中 心 化 管理 的 方法 ， 用 来 确 体 一 致 
性 。 在 时 间 轴 的 开始 ， 客 户 端 ci 为 主 节 点 并 独占 方案 外 部 资源 。 事 件 
发 生 顺 序 如 下 : 


1. 在 ti 时 刻 ， 因 为 超载 导致 与 ZooKeeper 的 通信 停止 ，ci 没有 响 
应 ，ci 已 经 排队 等 候 对 外 部 资源 的 更 新 ， 但 是 还 没收 到 CPU 时 钟 周 期 


2. 在 ts 时刻，ZooKeeper 声 明了 ci ' 与 ZooKeeper 的 会 话 已 经 终止， 
同时 删除 了 所 有 与 cj ' 会 话 天 联 的 临时 节点 ， 包 括 用 于 成 为 主 斑点 而 创 
建 的 临时 性 节点 。 


3. 在 6 NA, cy 成 为 主 节点 。 
4. 在 ty 时刻，c, 改变 了 外 部 资源 的 状态 。 


5. 在 ts 时 刻 ，ci ' 的 负载 下 降 ， 并 发 运 已 队列 化 的 更 新 到 外 部 资源 
ees 


6. 在 te FTZ], c 与 ZooKeeper 重 现 建立 连接 ， 发 现 其 会 话 已 经 过 期 
且 丢 掉 了 管理 权 。 遗 憾 的 是 ， 破 坏 已 经 发 生 ， 在 6 时 刻 ， 已 经 在 外 部 
资源 进行 了 更 新 ， 最 后 导致 系统 状态 损坏 。 


create /leader t t t 
Client c, 


ZooKeeper 
zxid=4 
Client c, 


create /leader 


DB 


客户 端 C 开 始 进行 垃圾 回收 。 

ZookKeeper 声 明 C 终 止 。 

; ”客户 端 6 成 为 群 首 .通过 数据 库 进行 同步 并 更 新 数据 。 
之 前 已 队列 化 的 但 延迟 的 更 新 被 发 送 给 数据 库 。 

; 客户 端 G 重 新 连接 到 Zookeeper， 发 现 其 会 话 已 经 过 期 。 


一 + 一 + + 
= N J 


图 5-6: 协调 外 部 资源 


Apache HBase， 作 为 早期 采用 ZooKeeper 的 项 目 ， 就 遇 到 了 这 个 问 
题 。HBase 通 过 区 域 服务 器 (region server) 来 管理 一 个 数据 库 表 的 区 
H, 数据 被 存储 于 分 布 式 文件 系统 中 ，HDFS， 每 个 区 域 服 务 絮 可 以 独 
占 访问 自己 所 管理 的 区 域 。HBase 的 每 个 特定 的 区 域 中 ， 通 过 
ZooKeeper 的 群 首选 举 来 确保 每 次 只 有 一 个 区 域 服 务 右 处 于 活动 状态 。 


区 域 服务 右 通 过 Java 开 发 ， 占 用 大 量 内 存 ， 当 可 用 内 存 越 来 越 少 ， 
Java 会 周期 性 地 执行 垃圾 回收 ， 找 到 释放 不 再 使 用 内 存 ， 以 便 以 后 分 配 
使 用 。 遗 憾 的 是 ， 当 回收 大 量 内 存 时 ， 侦 尔 束 会 出 现 长 时 间 的 垃圾 回 
收 周 期 ， 导 致 进程 暂停 一 段 时 间 。HBase 社 区 发 现 这 个 时 间 其 至 达到 几 
十 秒 ， 束 会 导致 ZooKeeper 认 为 区 域 服务 万 已 经 终止 。 当 志 圾 回收 完 


成 ， 区 域 服务 紫 继 续 处 理 ， 有 时候 会 完 进行 分 布 式 文件 系统 的 更 新 操 
作 ， 这 时 还 可 以 阻止 数据 被 破坏 ， 因 为 新 的 区 域 服务 郁 接 管 了 被 认为 
征 终止 状态 的 区 域 服务 关 的 管理 权 。 


时 钟 偏 移 也 可 能 导致 类 似 的 问题 ， 在 HBase 环 境 中 ， 因 系统 超载 而 
导致 时 钟 冻 结 ， 有 时 候 ， 时 钟 侦 移 会 导致 时 间 变 慢 长 至 落后 ， 使 得 客 
户 端 认为 目 己 还 安全 地 处 于 超时 周期 之 内 ， 因 此 仍然 具有 管理 权 ， 尽 
管 其 会 话 已 经 被 ZooKeeper 置 为 过 期 。 


解决 这 个 问题 有 几 个 方法 : 一 个 方法 旦 确保 你 的 应 用 不 会 在 超载 
或 时 钟 偏 移 的 环境 中 运行 ， 小 心 监控 系统 负载 可 以 检测 到 环境 出 现 问 
题 的 可 能 性 ， 良 好 设计 的 多 线程 应 用 也 可 以 避免 超载 ， 时 钟 同步 程序 
可 以 保证 系统 时 钟 的 同步 。 


另 一 个 方法 是 通过 ZooKeeper 扩 展 对 外 部 设备 协作 的 数据 ， 使 用 一 
种 名 为 隔离 (fencing) 的 技巧 ， 分 布 式 系统 中 常常 使 用 这 种 方法 用 于 
确保 资源 的 独占 访问 。 


我 们 用 一 个 例子 来 说 明 如 何 通过 隔离 符号 来 实现 一 个 简单 的 隅 
离 。 只 有 持 有 最 新 符号 的 客户 端 ， 才 可 以 访问 资源 。 
在 我 们 创建 代表 群 首 的 节点 时 ， 我 们 可 以 获得 Stat 结 构 的 信息 ， 其 


中 该 结构 中 的 成 员 之 一 ，czxid， 表 示 创 建 该 节点 时 的 zxid，zxid 为 唯一 
的 单调 递增 的 序列 号 ， 因 此 我 们 可 以 使 用 czxid 作 为 一 个 隔离 的 符号 。 


当 我 们 对 外 部 资源 进行 请 求 时 ， 或 我 们 在 连接 外 部 资源 时 ， 我 们 
还 需要 提供 这 个 隔离 符号 ， 如 采 外 部 资源 已 经 接收 到 更 高 版 本 的 隅 离 
符号 的 请 求 或 连接 时 ， 我 们 的 请 求 或 连接 融会 被 拒绝 。 也 束 是 说 如 采 
一 个 主 节 点 连接 到 外 部 资源 开始 管理 时 ， 若 旧 的 主 节 点 尝试 对 外 币 资 
源 进 行 菜 些 处 理 ， 其 请 求 将 会 失败 ， 这 些 请 求 会 被 隅 离开。 即使 出 现 
系统 超载 或 时 钟 偏 移 ， 隅 离 技 巧 依然 可 以 可 靠 地 工作 。 


图 5-7 展 示 了 如 何 通 过 该 技巧 解决 图 5-6 的 情况 。 当 ci 在 ti 时 刻 成 为 
群 首 ， 创 建 Meader 节 点 的 zxid 为 3 (真实 环境 中 ，zxid 为 一 个 很 大 的 数 
字 ) ， 在 连接 数据 库 时 使 用 创建 的 zxid 值 作为 隔离 符号 。 之 后 ，ci 因 超 
载 而 无 法 响应 ， 在 b ITZ), ZooKeeper Ac, Aik, co 成 为 新 的 群 首 。 
co 使 用 4 所 作为 隔离 符号 ， 因 为 其 创建 /eader 节 点 的 创建 zxid 为 4。 在 tb 
时 刻 ，c, 开始 使 用 隔离 符号 对 数据 库 进 行 操作 请 求 。 在 ty 时刻，ci 的 
请 求 到 达 数 据 库 ， 请 求 会 因 传 入 的 隔离 符号 (3) 小 于 已 知 的 隔离 符号 
(4) 而 被 拒绝 ， 因 此 避免 了 系统 的 破坏 。 


不 过 ， 隔 离 方案 需要 修改 客户 端 与 资源 之 间 的 协议 ， 需 要 在 协议 
中 添加 zxid， 外 部 资源 也 需要 持久 化 保存 来 跟踪 接收 到 的 最 新 的 zxid 。 


一 些 外 部 资源 ， 比 如 文件 服务 器 ， 提 供 局 部 锁 来 解决 隔离 的 问 
题 。 不 过 这 种 锁 也 有 很 多 限制 ， 已 经 被 ZooKeeper 移 出 并 声明 终止 状态 
的 群 育 可 能 仍然 持 有 一 个 有 效 的 锁 ， 因 此 会 阻止 新 选举 出 的 群 首 获 取 


这 个 锁 而 导致 无 法 继续 ， 在 这 种 情况 下 ， 更 实际 的 做 法 是 使 用 资源 铅 
来 确定 领导 权 ， 为 了 提供 有 用 信息 的 目的 ， 由 群 首创 建 /leader 条 点 。 


Client c, 


ZooKeeper 


Client c, 


DB 


create /leader t, t t 
zxid=3 3 


zxid=4 


create /leader AA 


x Time 


”客户 端 6 使 用 新 的 /leader 节 点 的 zxid 值 作为 隔离 iD。 

”客户 端 6 使 用 新 的 /leader 节 点 的 zxid 值 作为 隔离 ID。 

t 客户 端 C 与 数据 库 同步 ， 并 开始 更 新 

t 客户 端 C 延 迟 的 请 求 到 达 数 据 库 ， 但 因 旧 的 隔离 0 而 被 拒绝 。 
t 客户 端 C 重 新 连接 到 Zookeeper， 发 现 其 会 话 已 经 过 期 。 


图 5-7: 通过 ZooKeeper 使 用 隔离 
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发 者 在 使 用 ZooKeeper 时 需要 处 理 状态 变化 的 事件 、 故 障 代码 以 及 
ZooKeeper 抛 出 的 异常 。 不 过 ， 不 是 所 有 故障 在 任何 情况 下 都 采用 一 样 
的 方式 去 处 理 ， 有 时 开发 者 需要 考虑 连接 断 开 的 状态 ， 或 处 理 连接 断 
开 的 异 币 ， 因 为 进程 并 不 知道 系统 其 他 部 分 发 生 了 什么 ， 长 至 不 知道 
目 己 进行 中 的 请 求 是 否 已 经 执行 。 在 连接 断 开 这 段 时 间 ， 进 程 不 能 假 
设 系 统 中 的 其 他 部 分 还 在 运行 中 。 即 使 ZooKeeper 客 户 端 库 与 
ZooKeeper 服 务 咒 重新 建立 了 连接 ， 并 重新 建立 监视 点 ， 也 需要 校 验 之 
前 进行 中 的 请 求 的 结果 是 否 成 功 执行 。 


第 6 章 。” ZooKeeper 广 意 事 项 


在 前 面 的 章节 中 讲述 了 如 何 使 用 ZooKeeper 进 行 编码 开发 ， 实 现 了 
从 一 些 基本 场景 到 一 些 复 洒 的 情况 。 在 本 章 中 ， 我 们 集中 讨论 
ZooKeeper 的 某 些 环 手 的 问题 ， 主 要 涉及 会 话 的 语义 学 和 顺序 性 的 问 
题 。 本 章 所 讲述 的 内 容 可 能 并 不 会 影响 你 进行 开发 ， 但 当 你 遇 到 本 草 
所 讲述 的 某 些 问题 时 ， 你 会 发 现 这 些 内 容 对 你 很 有 好 人 处。 


本 章 与 其 他 章 世 的 结构 不 同 ， 我 们 并 没有 采用 线性 方式 进行 描 
述 ， 而 是 通过 一 个 个 混合 性 的 问题 逐一 展开 。 每 一 小 市 的 内 容 部 是 独 
立 的 内 容 ， 所 以 你 可 以 单独 阅读 某 一 节 的 内 容 。 在 之 前 的 章 市 中 ,我 
们 已 经 讨论 了 我 们 遇 到 的 一 些 棘手 问题 ， 但 在 这 一 章 中 ， 虽 然 没 有 必 
要 再 讨论 这 些 已 经 在 其 他 地 方 讨 论 过 的 问题 ， 但 是 这 些 问题 仍 然 很 重 
要 ， 因 为 许多 开发 人 员 都 曾 遇 到 这 些 问 题 。 


6.1 使 用 ACL 


正常 情况 下 ， 你 希望 在 管理 或 实施 章 世 看 到 访问 控制 的 内 容 ， 然 
而 ， 对 于 ZooKeeper， 开 发 人 员 往 往 负 责 管理 访问 控制 的 权限 ， 而 不 是 
管理 员 。 这 是 因为 每 次 创建 znode 节 点 时 ， 必 须 设置 访问 权限 ， 而 且 子 
节点 并 不 会 继承 父 节点 的 访问 权限 。 访 问 权限 的 检查 也 是 基于 每 一 个 
Znode 帮 点 的 ， 如 采 一 个 客户 端 可 以 访问 一 个 znode 节 点 ， 即 使 这 个 客 
户 病 无 权 访问 该 节操 的 父 厄 点， 仍然 可 以 访问 这 个 znode 节 反 。 


ZooKeeper 通 过 访问 控制 表 (ACL) 来 控制 访问 权限 。 一 个 ACL 包 
括 以 下 形式 的 记录 : scheme: auth-info， 其 中 scheme 对 应 了 一 组 内 置 
的 鉴 权 模式 ，auth-info 为 对 于 特定 模式 所 对 应 的 方式 进行 编码 的 鉴 权 
信息 。ZooKeeper 通 过 检查 客户 端 进程 访问 每 个 节点 时 提交 上 来 的 授权 
言 局 来 保证 安全 性 。 如 果 一 个 进程 没有 提供 鉴 权 信息 ， 或 者 鉴 权 信息 
与 要 请 求 的 znode 节 点 的 信息 不 匹配 ， 进 程 就 会 收 到 一 个 权限 错误 。 


为 了 给 一 个 ZooKeeper 增 加 鉴 权 信息 ， 需 要 调用 addAuthInfo 方 
法 ， 形 式 如 下 : 


void addAuthInfo( 
String scheme, 
byte auth[] 
) 


其 中 : 

Scheme 

表示 所 采用 的 鉴 权 模式 。 
auth 


表示 发 送 给 服务 器 的 鉴 权 信息 。 该 参数 的 类 型 为 byte[] 类 型 ， 不 过 
大 部 分 的 鉴 权 模式 需要 一 个 String 类 型 的 信息 ， 所 以 你 可 以 通过 
String.getBytes () 来 将 String 转 换 为 byte[] 。 


一 个 进程 可 以 在 任何 时 候 调用 addAuthInfo 来 添加 鉴 权 信息 。 一 般 
情况 下 ， 在 ZooKeeper 人 句柄 创建 后 就 会 调用 该 方法 来 添加 鉴 权 信息 。 
程 中 可 以 多 次 调用 该 方法 ， 为 一 个 ZooKeeper 句 柄 添加 多 个 权限 的 身 
份 。 


se 


6.1.1 内 置 的 鉴 权 模式 


ZooKeeper 提 供 了 4 种 内 置 模式 进行 ACL 的 处 理 。 其 中 一 个 我 们 之 
前 已 经 使 用 过 ， 通 过 OPEN_ACL _UNSAFE 常 量 隐 式 传递 了 ACL 策 略 ， 
这 种 ACL 使 用 world 作 为 鉴 权 模式 ， 使 用 anyone 作 为 auth-info， 对 于 


world 这 种 鉴 权 模式 ， 只 能 使 用 anyone 这 种 auth-info。 


男 一 种 特殊 的 内 置 模式 为 管理 员 所 使 用 的 super 模 式 ， 该 模式 不 会 
被 列 入 到 任何 ACL 中 ， 但 可 以 用 于 ZooKeeper 的 鉴 权 。 一 个 客户 端 通过 
super 鉴 权 模 式 连 接 到 ZooKeeper 后 ， 不 会 被 任何 和 点 的 ACL 所 限制 。 
关于 super 方 案 的 更 多 内 容 ， 请 参考 10.1.5T。 


我 们 通过 下 面 的 例子 来 介绍 另外 两 个 鉴 权 模 式 。 


当 ZooKeeper 以 一 个 空 树 开始 ， 只 有 一 个 znode 市 态 ，/， 这 个 市 扩 
对 所 有 人 开放 ， 我 们 假设 管理 员 Amy 负 责 配 置 ZooKeeper 服 务 ，Amy 创 
建 /appsT 点 ， 用 于 所 有 使 用 服务 的 应 用 需要 创建 万 点 的 父 玉 点 ， 她 现 
在 需要 锁定 服务 ， 所 以 她 设置 为 /和 /appsT 点 设置 的 ACL 为 : 


digest:amy:IqoonHjzb4KyxPAp8YWOIC8zzwY=，READ | WRITE | CREATE | DELETE | ADMIN 


该 ACL 只 有 一 条 记录 ， 为 Amy 提 供 所 有 访问 权限 。Amy 使 用 amy 
作为 用 户 ID 信 息 。 


digest 为 内 置 鉴 权 模式 ， 该 模式 的 auth-info 格 式 为 userid: 
passwd_digest， 当 调用 addAuthInfo 时 需要 设置 ACL 和 userid: password 
信息 。 其 中 passwd_digest 为 用 户 密 码 的 加 密 摘要 。 在 这 个 ACL 例 子 
中 ，Iq0onHjzb4KyxPAp8YWOIC8zzwY= 为 passwd_digest， 因 此 当 Amy 
调用 addAuthInfo 方 法 ，auth 参 数 传 入 的 为 amy: secret 字 符 串 的 字 节 数 


组 ，Amy 使 用 下 面 的 DigestAuthenticationProvider 来 为 她 的 账户 amy 生 
成 摘要 信息 。 


java -cp $ZK_CLASSPATH \ 
org.apache.zookeeper.server.auth.DigestAuthenticationProvider amy:secret 


amy : secret ->amy : Iq@onHj zb4KyxPAp8YWOIC8zzwY= 


amy: 后 面 生 成 的 字符 串 为 密码 摘要 信息 ， 也 就 是 我 们 在 ACL 记 
录 总 使 用 的 信息 。 当 Amy 需 要 向 ZooKeeper 提 供 鉴 权 信息 时 ， 她 就 要 使 
用 digest amy: secret。 例 如 ， 当 Amy 使 用 zkCli.sh 连 接 到 ZooKeeper， 她 
可 以 通过 以 下 方式 提供 鉴 权 信息 : 


[zk: localhost:2181(CONNECTED) 1] addauth digest amy:secret 


为 了 避免 在 后 面 的 例子 中 写 出 所 有 的 摘要 信息 ， 我 们 将 使 用 
XXXXX 作 为 占 位 符 来 位 单 的 表示 摘要 信息 。 


Amy 想 要 设置 一 个 子 树 ， 用 于 一 个 名 为 SuperApp 的 应 用 ， 该 应 用 
由 开发 人 员 Dom 所 开发 ， 因 此 她 创建 了 /apps/SuperApp 贡 点 ， 设 置 ACL 
如 下 : 


digest:dom:XXXXX, READ | WRITE | CREATE | DELETE | ADMIN 
digest :amy:XXXXX, READ | WRITE | CREATE | DELETE | ADMIN 


该 ACL 由 两 条 记录 组 成 ， 一 个 由 Dom 使 用 ， 一 个 由 Amy 使 用 。 这 
些 记录 对 所 有 以 dom 或 amy 密 码 信息 认证 的 客户 端 提 供 了 全 部 权限 。 


注意 ， 根 据 ACL 中 的 Dom 的 记录 ， 他 对 /apps/SuperApp 玉 点 具有 
ADMIN 权 限 ， 他 有 权限 修改 ACL， 这 就 意味 着 Dom 可 以 删除 Amy 访 
问 /apps/SuperApp 节 点 的 权限 。 当 然 Amy 具 有 super 的 访问 权限 ， 所 以 
她 可 以 随时 访问 任何 znode 节 点 ， 即 使 Dom 删 除了 她 的 访问 权限 。 


Dom 使 用 ZooKeeper 来 保存 其 应 用 的 配置 信息 ， 因 此 他 创建 
了 /apps/SuperApp/config 广 点 来 保存 配置 信息 。 之 后 他 使 用 我 们 在 之 前 
例子 中 介绍 的 模式 OPEN_ACL_UNSAFE 来 创建 znode 节 点 ， 因 为 Dom 
认为 /apps 和 /apps/SuperApp 的 访问 是 受 限 制 的 ， 所 以 也 能 保 
护 /apps/SuperApp/config 节 点 的 访问 。 我 们 后 面 就 会 看 到 ， 这 样 做 称 为 
UNSAFE ° 


我 们 假设 一 个 名 为 Gabe 的 人 具有 ZooKeeper 服 务 的 网 络 访问 权 
限 。 因 为 ACL 的 寅 略 设置 ，Gabe 无 法 访问 /app 或 /apps/SuperApp 广 点 ， 
Gabe 也 无 法 获取 /apps/SuperApp 广 点 的 子 节 点 列表 。 但 是 ， 也 许 Gabe 
猜测 Dom 使 用 ZooKeeper 保 存 配置 信息 ，config 这 个 名 字 对 于 配置 文件 
言 筷 也 非常 显而易见 ， 因 此 他 连接 到 ZooKeeper 服 务 ， 调 用 getData 方 
法 获取 /apps/SuperApp/config 世 点 的 信息 。 因 为 该 znode 节 点 采用 了 开 
放 的 ACL 策 略 ，Gabe 可 以 获取 该 节点 信息 。 还 不 止 这 些 ，Gabe 可 以 修 
改 、 删 除 该 节点 ， 甚 至 限制 /apps/SuperApp/config 节 点 的 访问 权限 。 


假设 Dom 意 识 到 这 个 问题 ， 修 改 /apps/ SuperA pp/config T 点 的 ACL 
策略 为 : 


digest:dom:XXXXX, READ | WRITE | CREATE | DELETE | ADMIN 


随 着 事情 的 发 展 ，Dom 得 到 一 个 新 的 开发 人 员 Nico 的 帮助 ， 来 一 
同 完善 SuperApp。Nico 需 要 访问 SuperApp 的 子 树 ， 因 此 Dom 修 改 了 子 
树 的 ACL 策 略 ， 将 Nico 添 加 进来 。 新 的 ACL 策 略为 : 


digest:dom:XXXXX, READ | WRITE | CREATE | DELETE | ADMIN 
digest :nico:XXXXX, READ | WRITE | CREATE | DELETE | ADMIN 


注意 : 用 户 名 和 密码 的 摘要 信息 从 何 而 来 ? 


你 也 许 注 意 到 我 们 用 于 摘要 的 用 户 名 和 密码 似乎 凭空 而 来 。 实 际 
上 确实 如 此 。 这 些 用 户 名 或 密码 不 用 对 应 任何 真实 系统 的 标识 ， 甚 至 
用 户 名 也 可 以 重复 。 也 许 有 另 一 个 开发 人 员 叫 Amy， 并 且 开 始 和 Dom 
和 Nico 一 同 工 作 ，Dom 可 以 使 用 amy: XXXXX 来 添加 她 的 ACL 策 略 ， 
只 是 在 这 两 个 Amy 的 密码 一 样 时 会 发 生 冲 突 ， 因 为 这 样 束 导 致 她 们 俩 
可 以 互相 访问 对 方 的 信息 。 


现在 Dom 和 Nico 具 有 了 他 们 需要 完成 的 SuperApp 的 所 需 的 访问 权 
限 。 应 用 部 署 到 生产 环境 ， 然 而 Dom 和 Nico 并 不 想 提 供 进程 访问 
ZooKeeper 数 据 时 所 使 用 的 密码 信息 ， 因 此 他 们 决定 通过 SuperApp 所 
运行 的 服务 器 的 网 络 地 址 来 限制 数据 的 访问 权限 。 例 如 所 有 
10.11.12.0/24 网 络 中 服务 器 ， 因 此 他 们 修改 了 SuperApp 子 树 的 znode 节 
点 的 ACL 为 : 


digest:dom:XXXXX, READ | WRITE | CREATE | DELETE | ADMIN 
digest:nico:XXXXX, READ | WRITE | CREATE | DELETE | ADMIN 
ip:10.11.12.0/24, READ 


ip 鉴 权 模 式 需 要 提供 网 络 的 地 址 和 掩 码 ， 因 为 需要 通过 客户 端的 
地 址 来 进行 ACL 寅 略 的 检查 ， 客 户 端 在 使 用 ip 模式 的 ACL 策 略 访问 
znode 让 点 时 ， 不 需要 调用 addAuthInfo 方 法 。 


现在 ， 任 何在 10.11.12.0/24 网 段 中 运行 的 ZooKeeper 客 户 端 都 具有 
a ° 该 鉴 权 模式 假设 IP 地 址 无 法 被 
伪造 ， 这 个 假设 也 许 并 不 能 适合 于 所 有 环境 中 。 


6.1.2 SASL 和 Kerberos 


前 一 市 中 的 例子 还 有 几 个 问题 。 首 先 ， 如 采 新 的 开发 人 员 加 入 或 
离开 组 ， 管 理 员 束 需要 改变 所 有 的 ACL 策 略 ， 如 来 我 们 通过 组 来 避免 
这 种 情况 ， 那 么 事情 网 会 好 一 些 。 其 次 ， 如 采 我 们 想 修改 某 写 开发 人 
员 的 密码 ， 我 们 也 需要 修改 所 有 的 ACL 寅 上 略 。 最 后 ， 如 果 网 络 不 可 
信 ， 无 论 是 digest 模 式 还 是 认 模 式 都 不 是 最 合适 的 模式 。 我 们 可 以 通过 
使 用 ZooKeeper 提 供 的 sasl 模 式 来 解决 这 些 问题 。 


SASL 表 示人 简单 认证 与 安全 层 (Simple Authentication and Security 
Layer) 。SASL 将 压 层 系统 的 鉴 权 模型 抽象 为 一 个 框架 ， 因 此 应 用 程 
序 可 以 使 用 SASL 框 架 ， 并 使 用 SASL 支 持 多 各 种 协议 。 IEE 


中 ，SASL 和 常常 使 用 Kerberos 协 议 ， 该 鉴 权 协议 提供 之 前 我 们 提 到 的 那 
些 缺 失 的 功能 。 在 使 用 SASL 模 式 时 ， 使 用 sasl 作 为 模式 名 ，id 则 使 用 
客户 端的 Kerberos 的 ID 。 


SASL 是 ZooKeeper 的 扩展 鉴 权 模式 ， 因 此 ， 需 要 通过 配置 参数 或 
Java 系 统 中 参数 激活 该 模式 。 如 果 你 采用 ZooKeeper 的 配置 文件 方式 ， 
需要 使 用 authProvider XXX 配置 参数 ， 如 果 你 想 要 通过 系统 参数 方式 ， 
需要 使 用 zookeeper.authProvider.XXX 作 为 参数 名 。 这 两 种 情况 下 ， 
XXX 可 以 为 任意 值 ， 只 要 没有 任何 重 名 的 authProvider， 一 般 XXX 采 用 
以 0 开始 的 一 个 数字 。 配 置 项 的 参数 值 为 
org.apache.zookeeper.server.auth.SASLAuthenticationProvider， 这 样 就 可 
以 激活 SASL 模 式 。 


6.1.3 ”增加 新 鉴 权 模式 


ZooKeeper 中 还 可 以 使 用 其 他 的 任何 鉴 权 模式 。 对 于 激活 新 的 鉴 权 
模式 来 说 只 是 简单 的 编码 问题 。 在 org.apache.zookeeper.server.auth 包 中 
提供 了 一 个 名 为 AuthenticationProvider 的 接口 类 ， 如 果 你 实现 你 自己 的 
鉴 权 模式 ， 你 可 以 将 你 的 类 发 布 到 服务 器 的 classpath 下， 创建 
Zookeeper.authProvider 名 称 前 缀 的 Java 系 统 参 数 ， 并 将 参数 值 设 置 为 你 


实现 AuthenticationProvider 接 口 的 实际 的 类 和 名。 


6.2 ”恢复 会 话 


假如 你 的 ZooKeeper 客 尸 端 朋 演 ， 之 后 恢复 运行 ， 应 用 程序 在 恢复 
运行 后 需要 处 理 一 系列 问题 。 衣 先 ， 应 用 程序 的 ZooKeeper 状 态 还 处 于 
客户 端 朋 省 时 的 状态 ， 其 他 客户 端 进程 还 在 继续 运行 ， 也 许 已 经 修改 
了 ZooKeeper 的 状态 ， 因 此 ， 建 议 客 户 端 不 要 使 用 任何 之 前 从 
ZooKeeper 获 取 的 缓存 状态 ， 而 是 使 用 ZooKeeper 作 为 协作 状态 的 可 信 
来 源 。 


例如 ， 在 我 们 的 主 从 实现 中 ， 如 采 主 要 主 市 点 月 演 并 恢复 ,与 此 
同时 ， 集 群 也 许 已 经 对 分 配 的 任务 完成 了 切换 到 备份 主 市 点 的 故障 转 
移 。 当 主要 主 市 点 恢复 后 ， 束 不 能 再 认为 目 己 是 主 节 上 感 ， 并 认为 待 分 
配 任务 列表 已 经 发 生变 化 。 


第 二 个 重要 问题 是 客户 端 朋 澳 时 ， 已 经 提交 给 ZooKeeper 的 竺 处 理 
操作 也 许 已 经 完成 了 ， 由 于 客户 端 朋 浇 导致 无 法 收 到 确认 消 忌 ， 
ZooKeeper 无 法 保证 这 些 操 作 肯 定 会 成 功 执行 ， 因 此 ， 客 户 问 在 恢复 时 
也 许 需 要 进行 一 些 ZooKeeper 状 态 的 请 理 操 作 ， 以 便 完 成 某 些 未 完成 的 
任务 。 例 如 ， 如 采 我 们 的 主 世 点 般 瀑 前 进行 了 一 个 已 分 配 任务 的 列表 
删除 操作 ， 在 恢复 并 再 次 成 为 主要 主攻 点 时 ， 融 需要 再 次 删除 该 任 


务 。 


尽管 到 目前 为 止 我 们 讨论 的 都 是 客户 端 衣 总 的 案例 ， 本 世 中 还 需 
要 讨论 会 话 过 期 的 问题 。 对 于 会 话 过 期 ， 不 能 认为 是 客户 端 朋 涡 。 会 
话 也 许 因 为 网 络 问题 或 其 他 问题 过 期 ， 比 如 Java 中 的 垃圾 回收 中 断 ， 

和 会 话 过 期 的 情况 下 ， 客 户 端 需要 考虑 ZooKeeper 状 态 也 许 已 经 发 生 了 
改变 ， 或 者 客户 端 对 ZooKeeper 的 请 求 也许 并 未 完成 。 


6.3” 当 znode 太 点 重新 创建 时 ， 重 置 版 本 号 


这 个 话题 似乎 是 显而易见 的 ， 但 还 是 要 再 次 强调 ，znode 世 点 被 删 
除 并 重建 后 ， 其 版 本 号 将 会 被 重 置 。 如 果 应 用 程序 在 一 个 znode 节 点 重 
建 后 ， 进 行 版 本 号 检查 会 导致 错误 的 发 生 。 


假设 客户 端 获取 了 一 个 znode 节 点 《如 : /z) 的 数据 ， 改 变 该 节点 
的 数据 ， 并 基于 版 本 号 为 1 的 条 件 进行 回 写 ， 如 果 在 客户 端 更 新 该 闻 氮 
数据 时 ，znode 点 被 删除 并 重建 了 ， 版 本 号 还 是 会 匹配 ， 但 现在 也 许 
保存 的 是 错误 的 数据 了 。 


另 一 种 可 能 的 情况 ， 在 一 个 znode 节 点 删除 中 和 重建 中 ， 对 于 
znode 闻 点 发 生 的 变化 的 情况 。 此 时 进行 节点 的 更 新 操作 ，setData 操 作 
永远 不 会 修改 znode 节 点 的 数据 ， 这 种 情况 下 ， 通 过 检查 版 本 号 并 不 能 
提供 znode 节 点 的 变化 情况 ，znode 节 点 也 许 会 被 更 新 任意 次 ， 但 其 版 
本 号 仍然 为 0。 


6.4 sync 方 法 


如 果 应 用 客户 端 只 对 ZooKeeper 的 读 写 来 通信 ， 应 用 程序 就 不 用 考 
虚 sync 方 法 。sync 方 法 的 设计 初衷 ， 是 因为 与 ZooKeeper 的 带 外 通信 可 
能 会 导致 某 些 问题 ， 这 种 通信 人 常 彰 称 为 隐蔽 通道 (hidden channel) ， 
在 4.7 市 中 我 们 已 经 对 此 问题 进行 过 解释 。 问 题 主要 源 于 一 个 客户 端 c 
也 许 通 过 某 些 直接 通道 (例如 ，c 和 c' 之 间 通 过 TCP 连 接 进行 通讯 ) 来 
通知 另 一 个 客户 端 c 进 行 ZooKeeper 状 态 变 化 ， 但 是 当 c 读 取 ZooKeeper 
的 状态 时 ， 却 并 未 发 现 变化 情况 。 


这 一 场景 发 生 的 原因 ， 可 能 因为 这 个 客户 端 所 连接 的 服务 名 还 没 
来 得 及 处 理 变 化 情况 ， 而 sync 方 法 可 以 用 于 人 处理 这 种 情况 。sync 为 异 
步调 用 的 方法 ， 客 户 端 在 读 操作 前 调用 该 方法 ， 假 如 客户 端 从 某 些 直 
接 通道 收 到 了 时 个 节点 变化 的 通知 ， 并 要 读 取 这 个 znode 站 点 ， 客 户 端 
就 可 以 通过 sync 方 法 ， 然 后 再 调用 getData 方 法 : 


zk.sync(path, voidCb, ctx);@ 


zk.getData(path, watcher, dataCb, ctx);® 


@sync 方 法 接受 一 个 path 参 数 ， 一 个 void 退回 类 型 的 回调 方法 的 示 
例 ， 一 个 上 下 文 对 象 实例 。 


@getData 方 法 与 之 前 介绍 的 调用 方式 一 样 。 


sync 方 法 的 path 参 数 指示 需要 进行 操作 的 路 径 。 在 系统 内 部 ，sync 
方法 实际 上 并 不 会 影响 ZooKeeper， 当 服务 端 处 理 sync 调 用 时 ， 服 务 端 
会 刷新 群 理 与 调用 sync 损 作 的 客户 端 c 所 连接 的 服务 端 之 间 的 通道 ， 刷 
新 的 意思 就 是 说 在 调用 getData 的 返回 数据 的 时 候 ， 服 务 端 确保 返回 所 
有 客户 端 c 调 用 sync 方 法 时 所 有 可 能 的 变化 情况 。 在 上 面 的 隐蔽 通道 的 
情况 中 ， 变 化 情况 的 通信 会 先 于 sync 操 作 的 调用 而 发 生 ， 因 此 当 c 收 到 
getData 调 用 的 啊 应 ， 啊 应 中 必然 会 包含 c 所 通知 的 变化 情况 。 注 意 ， 
在 此 时 该 和 点 也 可 能 发 生 了 其 他 变化 ， 因 此 在 调用 getData 时 ， 
ZooKeeper 只 保证 所 有 变化 情况 能 够 返回 。 


使 用 sync 还 有 一 个 注意 事项 ， 这 个 需要 深入 ZooKeeper 内 部 的 技术 
问题 (你 可 以 选择 跳 过 此 部 分 。 因 为 ZooKeeper 的 设计 初衷 是 用 于 快 
速 读 取 以 及 以 读 为 主要 负载 的 扩展 性 考虑 ， 所 以 简化 了 sync 的 实现 ， 
同时 与 其 他 常规 的 更 新 操作 (如 create、setData 或 delete) 不 同 ，sync 
操作 并 不 会 进入 执行 管道 之 中 。sync 操 作 只 是 简单 地 传递 到 群 首 ， 之 
后 群 首 会 将 啊 应 包 队 列 化 ， 传 递 给 群 组 成 员 ， 之 后 发 送 啊 应 包 。 不 过 
还 有 另外 一 种 可 能 ， 仲 裁 机 制 确 定 的 群 首 5/， 现 在 已 经 不 被 仲裁 组 成 员 
所 认可 ， 仲 裁 组 成 员 现在 选举 了 另 个 群 首 !， 在 这 种 情况 下 ， 群 首 ] 可 


能 无 法 处 理 所 有 的 更 新 操作 的 同步 ， 而 sync 调 用 也 就 可 能 无 法 履行 其 
保障 。 


ZooKeeper 的 实现 中 ， 通 过 以 下 方式 处 理 上 面 的 问题 ，ZooKeeper 
中 的 仲裁 组 成 员 在 放弃 一 个 群 首 时 会 通知 该 群 百 ， 通 过 群 首 与 群 组 成 
员 之 间 的 tickTime 来 控制 超时 时 间 ， 当 它们 之 间 的 TCP 连 接 丢 失 ， 和 群 组 
成 员 在 收 到 socket 的 异 间 后 就 会 确定 群 首 是 否 已 经 消失 。 群 首 与 群 组 
成 员 之 间 的 超时 会 快 于 TCP 连 接 的 中 止 ， 虽 然 的 确 存在 这 种 极端 情况 
导致 错误 的 可 能 ， 但 是 在 我 们 现 有 经 验 中 还 未 曾 遇 到 过 。 


在 邮件 列表 的 讨论 组 中 ， 曾 经 多 次 讨论 过 该 问题 ， 硕 望 将 sync 操 
作 放 入 执行 管道 ， 并 可 以 一 并 消除 这 种 极端 情况 。 残 目前 来 看 ， 
ZooKeeper 的 实现 依赖 于 合理 的 时 序 假设 ， 因 此 没有 什么 问题 。 


6.5 ”顺序 性 保障 


虽然 ZooKeeper 声 明 对 一 个 会 话 中 所 有 客户 端 操 作 提供 顺序 性 的 保 
障 ， 但 还 是 会 存在 ZooKeeper 控 制 之 外 某 些 情况 ， 可 能 会 改变 客户 端 操 
作 的 顺序 。 开 发 人 员 需 要 注意 以 下 参考 信息 ， 以 便 保 证 程序 按照 你 所 
期 望 的 行为 执行 。 我 们 将 会 讨论 三 种 情况 。 


6.5.1 连接 丢失 时 的 顺序 性 


对 于 连接 丢失 事件 ，ZooKeeper 会 取消 等 竺 中 的 请 求 ， 对 于 同步 方 
法 的 调用 客户 端 库 会 抛 出 异 汕 ， 对 于 异步 请 求 调 用 ， 客 户 端 调用 的 回 
调 函 数 会 返回 结 采 码 来 标识 连接 丢失 。 在 应 用 程序 的 连接 丢失 后 ， 客 
尸 端 库 不 会 再 次 重新 提交 请 求 ， 因 此 整 需 要 应 用 程序 对 已 经 取消 的 请 
求 进行 重新 提交 的 操作 。 所 以 ， 在 连接 丢失 的 情况 下 ， 应 用 程序 可 以 
依赖 客户 吕 库 来 解决 所 有 后 续 操 作 ， 而 不 能 依赖 ZooKeeper 来 承担 这 些 
操作 。 


为 了 明白 连接 丢失 对 应 用 程序 的 影响 ， 让 我 们 考虑 以 下 事件 顺 
序 : 


1. 应 用 程序 提交 请 求 ， 执 行 Op1 操 作 。 


2. 客 户 端 检测 到 连接 丢失 ， 取 消 了 Op1 操 作 的 请 求 。 
3. 客 户 端 在 会 话 过 期 前 重新 连接 。 

4. 应 用 程序 提交 请 求 ， 执 行 Op2 操 作 。 
5.0p2 执 行 成 功 。 


6.0p1 返 回 CONNECTIONLOSS 事 件 。 


7. 应 用 程序 重 痢 提交 Op1 操 作 请 求 。 


在 这 种 情况 中 ， 应 用 程序 按 顺序 提交 了 Op1 和 Op2 请 求 ， 但 Op2 却 
先 于 Op1 成 功 执行 。 当 应 用 程序 在 Op1 的 回调 函数 中 发 现 连接 丢失 情况 
后 ， 应 用 程序 再 次 提交 请 求 ， 但 是 假设 客户 端 还 没有 成 功 重 连 ， 再 次 
提交 Op1 还 是 会 得 到 连接 丢失 的 返回 ， 因 此 在 重新 连接 前 存在 一 个 风 
险 ， 即 应 用 程序 进入 重新 提交 Op1 请 求 的 无 限 循环 中 ， 为 了 跳出 该 循 
环 ， 应 用 程序 可 以 设置 重 试 的 次 数 ， 或 者 在 重新 连接 时 间 过 长 时 关闭 
句柄 。 


在 某 些 情况 中 ， 确 保 Op1 先 于 Op2 成 功 执行 可 能 是 重要 问题 。 如 果 
Op2 在 某 种 程度 上 依赖 与 Op1 操 作 ， 为 了 避免 Op2 在 Op1l 之 前 成 功 执 
行 ， 我 们 可 以 等 待 Op1 成 功 执行 之 后 在 提交 Op2 请 求 ， 这 种 方法 我 们 在 
很 多 主 从 应 用 的 示例 代码 中 使 用 过 ， 以 此 来 保证 请 求 按 顺序 执行 。 通 
常 ， 等 待 Op1 操 作 结 果 的 方法 很 安全 ， 但 是 带 来 了 性 能 上 的 损失 ， 因 


为 应 用 程序 需要 等 竺 一 个 请 求 的 操作 结果 再 提交 下 一 个 ， 而 不 能 将 这 
些 操作 并 行 化 。 


注意 : 假如 我 们 摆脱 CONNECTIONLOSS 会 怎样 ? 


CONNECTIONLOSS 事 件 的 存在 的 本 质 原 因 ， 因 为 请 求 正 在 处 理 
中 ， 但 客户 端 与 服务 端 失 去 了 连接 。 比 如 ， 对 于 一 个 create 操 作 请 求 ， 
在 这 种 情况 下 ， 客 户 端 并 不 知道 请 求 是 否 处 理 完成 ， 然 而 客户 端 可 以 
询问 服务 端 来 确认 请 求 是 否 成 功 执行 。 服 务 端 可 以 通过 内 存 或 日 志 中 
缓存 的 信息 记录 ， 知 道 自己 处 理 了 哪些 请 求 ， 因 此 这 种 方式 也 是 可 行 
的 。 如 果 开 发 社区 最 终 改变 了 ZooKeeper 的 设计 ， 在 重新 连接 时 服务 端 
访问 这 些 缓存 信息 ， 我 们 就 可 以 取消 无 法 保证 前 置 操 作 执 行 成 功 的 限 
制 ， 因 为 客户 端 可 以 在 需要 时 重新 执行 待 处 理 的 请 求 。 但 到 目前 为 
IE, 开发 人 员 还 需要 注意 这 一 限制 ， 并 受 善 处 理 连接 丢失 的 事件 。 


6.5.2 ”同步 API 和 多 线程 的 顺序 性 


目前 ， 多 线程 应 用 程序 非常 普 壳 ， 如 末 你 在 多 线程 环境 中 使 用 同 
步 API， 你 需要 特别 注意 顺序 性 问题 。 一 个 同步 ZooKeeper 调 用 会 阻塞 
运行 ， 直 到 收 到 啊 应 信息 ， 如 采 两 个 或 更 多 线程 问 Zo0oKeeper 同 时 提交 
了 同步 操作 ， 这 些 线程 中 将 会 被 阻塞 ， 直 到 收 到 啊 应 信息 ，ZooKeeper 
会 顺序 返回 啊 应 信息 ， 但 操作 结 采 可 能 因 线 程 调度 等 原因 导致 后 提交 


的 操作 而 先 被 执行 。 如 果 ZooKeeper 返 回响 应 包 与 请 求 操作 非常 接近 ， 
你 可 能 会 看 到 以 下 场景 。 


如 采 不 同 的 线程 同时 提交 了 多 个 操作 请 求 ， 可 能 是 一 些 并 不 存在 
某 些 直接 联系 的 操作 ， 或 不 会 因 任意 的 执行 顺序 而 导致 一 致 性 问题 的 
操作 。 但 如 果 这 些 操 作 具 有 相关 性 ， 客 户 端 应 用 程序 在 处 理 结果 时 需 
要 注意 这 些 操作 的 提交 顺序 。 


6.5.3 同步 和 异步 混合 调用 的 顺序 性 


还 有 另外 一 种 可 能 出 现 顺 序 混乱 的 情况 。 假 如 你 通过 异步 操作 提 
交 了 两 个 请 求 ，Aop1 和 Aop2， 不 管 这 两 个 操作 具体 是 什么 ， 只 是 通过 
步 提交 的 两 个 操作 。 在 Aop1 的 回调 函数 中 ， 你 进行 了 一 个 同步 调 
，Sop1， 该 同步 调用 阻塞 了 ZooKeeper 客 户 端的 分 发 线程 ， 这 样 就 
会 导致 客户 端 应 用 程序 接收 Sop1 的 结果 之 后 才能 接收 到 Aop2 的 操作 结 
果 。 因 此 应 用 程序 观察 到 的 操作 结果 顺序 为 Aopl1、Sopl1、Aop2， 而 实 
际 的 提交 顺序 并 非 如 此 。 


> 
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通常 ， 混 合同 步调 用 和 异步 调用 并 不 是 好 方法 ， 不 过 也 有 例外 的 
情况 ， 例 如 当局 动 程序 时 ， 你 布 望 在 处 理 之 前 和 多 在 ZooKeeper 中 初始 化 
某 些 数据 ， 昌 然 这 时 可 以 使 用 Java 锁 或 其 他 某 些 机 制 处 理 ， 但 采用 一 
个 或 多 个 同步 调用 也 可 以 完成 这 项 任务 。 


6.6 ”数据 字段 和 子玉 点 的 限制 


ZooKeeper 默 认 情 况 下 对 数据 字段 的 传输 限制 为 IMB ， 该 限制 为 
任何 节点 数据 字段 的 最 大 可 存储 字 节 数 ， 同 时 也 限制 了 任何 父 节点 可 
以 拥有 的 子 节 点 数 。 选 择 1MB 是 随意 制定 的 ， 在 某 种 意义 上 来 说 ， 没 
有 任何 基本 原则 可 以 组 织 ZooKeeper 使 用 其 他 值 ， 更 大 或 更 小 的 限制 。 
然而 设置 限制 值 可 以 保证 高 性 能 。 如 果 一 个 znode 节 点 可 以 存储 很 大 的 
数据 ， 就 会 在 处 理 时 消耗 更 多 的 时 间 ， 甚 至 在 处 理 请 求 时 导致 处 理 管 
道 的 停滞 。 如 果 一 个 客户 端 在 一 个 拥有 大 量子 节点 的 znode 世 点 上 执行 
getChildren 操 作 ， 也 会 导致 同样 的 问题 。 


ZooKeeper 对 数据 字段 的 大 小 和 子 市 点 的 数量 的 默认 的 限制 值 已 经 
足够 大 ， 你 需要 避免 接近 该 限制 值 的 使 用 。 我 们 也 可 以 开局 更 大 的 限 
制 值 ， 来 满足 非常 大 量 的 应 用 的 需求 ， 如 采 你 有 特殊 用 途 确 实 需 要 修 
改 该 限制 值 ， 你 可 以 通过 在 10.1.6 节 所 描述 的 方式 来 改变 该 值 。 
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ZooKeeper 服 务 句 的 情况 。 该 方法 使 应 用 的 用 户 对 ZooKeeper 的 使 用 透 
明 化 ， 虽 然 这 个 主意 听 起 来 很 吸引 人 《毕竟 谁 都 不 喜欢 额外 的 依 
R) ， 但 我 们 还 是 不 建议 这 样 做 。 我 们 观察 到 一 些 采用 幅 入 式 方式 的 
应 用 中 所 遇 到 的 问题 ， 如 果 ZooKeeper 发 生 错 误 ， 用 户 将 会 查看 与 
ZooKeeper 相 关 的 日 志 信息 ， 从 这 个 角度 看 ， 对 用 户 已 经 不 再 是 透明 化 
的 ， 而 且 应 用 开发 人 员 也 许 无 法 处 理 这 些 ZooKeeper 的 问题 。 甚 至 更 粳 
的 是 ， 整 个 应 用 的 可 用 性 和 ZooKeeper 的 可 用 性 被 耦合 在 一 起 ， 如 果 其 
中 一 个 退出 ， 另 一 个 也 必然 会 退出 。ZooKeeper 常 常 被 用 来 提供 高 可 用 
服务 ， 但 对 于 应 用 中 舱 入 ZooKeeper 的 方式 却 降低 了 其 最 强 的 优势 。 


虽然 我 们 不 建议 采用 筷 入 式 ZooKeeper 服 务 器 ， 但 也 没有 什么 理论 
阻止 一 个 人 这 样 做 ， 例 如 ， 在 ZooKeeper 测 试 程序 中 ， 因 此 ， 如 果 你 真 
的 想 要 采用 这 种 方式 ，ZooKeeper 的 测试 程序 是 一 个 很 好 的 资源 ， 教 你 
如 何 去 做 。 


6.8 ”小 结 
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有 时 ， 使 用 ZooKeeper 进 行 开 发 需要 非常 小 心 ， 我 们 将 读者 的 注 
力 集中 到 顺序 性 的 保障 和 会 话 的 语义 学 之 上 ， 起 初 这 些 概念 看 起 来 很 
容易 理解 ， 从 某 种 意义 上 来 说 ， 的 确 是 这 样 ， 但 是 在 某 些 重 要 的 极端 
情况 下 ， 开 发 人 员 需 要 小 心 应 对 。 本 草 的 主要 目的 就 古 提 供 一 些 开 发 
的 指导 方针 ， 并 涉及 某 些 极端 情况 的 说 明 。 
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虽然 ZooKeeper 的 Java 版 本 接口 是 主要 被 使 用 的 一 个 接口 ， 但 C 语 
言 版 本 的 ZooKeeper 客 户 端 绑 定 也 同样 受 ZooKeeper 开 发 人 员 所 欢迎 ， 
并 以 此 为 基础 形成 了 其 他 语言 的 绑 定 接口 。 本 章 将 集中 介绍 该 绑 定 接 
口 ， 介 绍 如 何 使 用 C 语 言 API 来 进行 ZooKeeper 应 用 的 开发 。 我 们 将 会 
通过 C 语 言 再 次 实现 主 从 例子 中 的 主 节 点 示例 ， 通 过 该 示例 来 展示 与 
Java 语 言 的 API 的 不 同 之 处 。 


对 于 C 语 言 的 API， 主 要 参考 为 ZooKeeper 发 行 包 中 的 zookeeper.h 
文件 ， 以 及 在 项 目 发 行 包 中 的 README 文 件 中 所 介绍 的 构建 客户 端 库 
的 操作 步 又 。 或 者 ， 你 可 以 采用 ant compile-native 命 令 ， 这 样 就 可 以 自 
动 生 成 这 些 。 在 开始 进行 编码 之 前 ， 我 们 需要 先 介绍 一 下 如 何 设置 开 
发 环境 ， 来 帮助 大 家 快速 开始 。 


当 我 们 构建 C 客 户 端 ， 将 会 生成 两 个 库 ， 一 个 用 于 多 线程 客户 端 
的 库 ， 男 一 个 为 用 于 单线 程 的 客户 端 库 。 本 草 中 大 多 数 示例 假设 采用 
多 线程 客户 端 库 ， 直 到 本 章 结尾 我 们 再 讨论 单线 程 版 本 的 客户 端 库 。 
我 们 建议 读者 更 关注 多 线程 的 实现 方式 。 


7.1 配置 开发 环境 


在 ZooKeeper 的 发 行 包 中 ， 已 经 包含 了 在 任何 平台 上 运行 的 JAR 包 
文件 。 为 了 使 用 C 语 言 在 本 地 进行 编译 ， 在 编译 我 们 的 C 版 本 
ZooKeeper 应 用 之 前 ， 我 们 需要 先 构 建 必 需 的 共 译 库 。 季 好 ， 
ZooKeeper 提 供 了 们 单 的 方式 来 构建 这 些 库 。 


构建 ZooKeeper 本 地 库 的 最 简单 的 方式 是 使 用 ant 构 建 工 具 。 在 你 
解压 缩 的 ZooKeeper 发 行 包 的 目录 中 ， 有 一 个 名 为 build.xml 的 文件 ， 该 
文件 包含 了 ant 构 建 所 需 的 构建 步 又 。 你 还 需要 用 到 automake、 
autoconf 和 cppunit 这 些 工具 ， 如 果 你 使 用 Linux 操 作 系统 ， 需 要 确保 这 
些 工具 在 你 的 主机 中 可 用 。 在 Windows 中 Cygwin 已 经 提供 了 这 些 工 
具 。 在 Mac OS X 系 统 中 ， 你 可 以 使 用 开源 包 管 理工 具 ， 如 Fink、Brew 


ak MacPorts ° 


一 旦 安装 了 所 有 必需 的 工具 ， 你 可 以 采用 以 下 方式 构建 ZooKeeper 
的 库 : 


ant compile-native 


当 构 建 完成 ， 你 可 以 在 build/cbuildmusrvlib 中 发 现 链接 库 文件 ， 在 
build/c/build/usrvinclude/zookeeper 发 现 你 所 需要 的 头 文件 。 


7.2 ”开始 会 话 


与 ZooKeeper 进 行 任何 操作 之 前 ， 我 们 首先 需要 一 个 zhandle_t 句 
柄 。 我 们 通过 调用 zookeeper_init 函 数 来 获取 句柄 ， 函 数 定 义 如 下 : 


ZOOAPI zhandle_t *zookeeper_init(const char *host,® 


watcher_fn fn, @ 


int recv_timeout, © 


const clientid_t *clientid,@ 


void *context, © 


int flags);© 


d) 包 含 ZooKeeper 服 务 集群 的 主机 地 址 的 字符 串 ， 地 址 格式 为 
host: port， 每 组 地 址 以 逗号 分 隔 。 


人 用 于 处 理事 件 的 监视 点 函数 ， 将 在 下 一 节 介 绍 其 定义 。 
会 话 过 期 时 间 ， 以 晕 秒 为 单位 。 


(之 前 已 建立 的 一 个 会 话 的 客户 端 ID， 用 于 客户 端 重新 连接 。 在 
建立 会 话 时 ， 通 过 调用 zoo_client_ id 来 获取 客户 端 ID。 指 定 参 数 0 来 开 
台 浙 的 会 话 。 


@ 返 回 的 zkhandle_t 句 柄 所 使 用 的 上 下 文 对 象 。 
(9) 该 参数 暂时 没有 使 用 ， 因 此 设置 为 0 即 可 。 
JER: 关于 ZOOAPI 安 的 定义 


ZOOAPI 宏 用 于 在 Windows 系 统 中 构建 ZooKeeper 库 。ZOOAPI 宏 
的 可 能 值 有 : _ declspec (dllexport) 、_declspec (dllimport) 和 空 
对 于 ”declspec (dllexport) 和 ”declspec (dllimport) 关键 词 ， 将 会 分 
别 导 出 或 导入 符号 到 DLL 文件 中 。 如 果 你 不 在 windows 中 构建 库 ， 保 
持 ZOOAPI 为 空 。 当 然 ， 原 则 上 在 Windows 中 构件 库 ， 你 不 需要 进行 任 
何 配置 ， 发 行 包 中 的 配置 已 经 处 理 了 。 


Zookeeper_init 调 用 也 许 在 实际 完成 会 话 建立 前 返回 ， 因 此 只 有 当 
收 到 ZOO_CONNECTED_STATE 事 件 时 才 可 以 认为 会 话 建立 °。 该 
事件 可 以 通过 监视 点 函数 的 实现 来 处 理 ， 该 函数 的 定义 如 下 : 


typedef void (*watcher_fn)(zhandle_t *zh,@® 


int type, @ 


int state, ®© 


const char *path,@ 


void *watcherCtx);® 


QD 观察 点 函数 引用 的 ZooKeeper 人 句柄 。 


事件 类 型 ZOO CREATED EVENT ` 
ZOO_DELETED EVENT、ZOO_CHANGED EVENT ` 
7Z00 CHILD EVENT ` ZOO_SESSION EVENT ° 


(3 连接 状态 。 


(4) 被 观察 并 触发 事件 的 znode 闻 点 路 径 ， 如 果 事 件 为 会 话 事件 ， 路 
径 为 null ° 
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以 下 为 一 个 监视 点 函数 的 实现 示例 : 


static int connected = 0; 

static int expired = 0; 

void main_watcher (zhandle_t *zkh, 
int type, 
int state, 
const char *path, 
void* context) 


if (type == ZOO_SESSION_EVENT) { 
if (state == ZOO_CONNECTED_STATE) { 
connected = 1;® 


} else if (state == ZOO_NOTCONNECTED_STATE ) { 
connected = 0; 

} else if (state == ZOO_EXPIRED_SESSION_STATE) { 
expired = 1;@ 


connected = 0; 
zookeeper_close(zkh); 
} 
} 
} 


QO 在 接收 到 ZOO_CONNECTED_STATE 事 件 后 设置 状态 为 已 连接 
状态 。 


@) 在 接收 到 ZOO_EXPIRED_ SESSION_STATE 事 件 后 设置 为 过 期 
状态 〈 并 关闭 会 话 句柄 ) ° 


注意 : 监视 点 数据 结构 


el 


ZooKeeper 中 ， 只 要 设置 了 监视 点 ， 就 无 法 移 除 监视 点 ， 因 此 不 管 
之 后 进程 是 否 关心 会 话 中 的 监视 点 ， 都 需要 保留 监视 点 数据 结构 的 对 
象 ， 因 为 最 后 还 可 能 调用 该 函数 。 在 Java 中 不 需要 关心 这 个 问题 ， 
为 Java 中 采用 目 动 垃圾 回收 机 制 。 


将 所 有 操作 串 在 一 起 ， 我 们 的 主 节 点 的 init 沙 数 如 下 所 示 : 


static int server_id; 

int init (char* hostPort) { 
srand(time(NULL) ); 
server_id = rand();® 


zoo_set_debug_level(Z00_LOG_LEVEL_INFO);® 


zh = zookeeper_init(hostPort, ® 


main_watcher, 
15000, 
0, 
0, 
0); 
return errno; 


} 
设置 服务 器 ID 。 
@ 设 置 log 日 志 的 输出 级 别 。 


(3 创建 会 话 的 调用 。 


代码 前 两 行 设 置 了 生成 随机 数 的 种 子 以 及 主 志 点 的 标识 待 ， 我 们 
使 用 server_id 来 标识 不 同 的 主 太 点 (回忆 之 前 我 们 所 介绍 的 ， 我 们 可 
以 设置 一 或 多 个 备份 主 节 点 和 一 个 主要 主 节 点 ) 。 之 后 我 们 设置 了 日 
志 消 息 的 输出 级 别 ， 我 们 自己 实现 了 日 志 功 能 (请 见 log.h) ， 为 了 方 
便 ， 我 们 将 其 拷贝 到 了 ZooKeeper 的 发 行 包 中 (zookeepe log.h) 。 最 
后 ， 我 们 调用 了 zookeeper_init 函 数 进 行 初 始 化 ， 同 时 是 main_watcher 
函数 可 以 处 理会 话 事 件 。 


7.3 5 SETA 


引导 (Bootstraping) 主 下 点 是 指 创建 主 从 模式 例子 中 使 用 的 一 些 


znode 广 点 并 苋 选 主要 主 节 点 的 过 程 。 我 们 首先 创建 四 个 必需 的 znode 
oe 
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void bootstrap() { 
if(!connected) {0 


LOG_WARN( ("Client not connected to ZooKeeper")); 
return; 


create_parent("/workers", "");@ 


create_parent("/assign", ""); 
create_parent("/tasks", ""); 
create_parent("/status", ""); 


OUR AEH, wise AFR © 
G@) 创 建 四 个 父 节 点 : /workers ` /assign 、/tasks ` /status ° 
以 下 为 create_parent 函 数 : 


void create_parent(const char * path, 
const char * value) { 
zoo_acreate(zh, © 


path, @ 


value, © 


&Z00_OPEN_ACL_UNSAFE, © 


create_parent_completion, © 


NULL) ; @ 


GO 异步 调用 创建 znode 节 点 时 ， 需 要 传 入 的 zhandle_t 句 柄 的 实例 ， 
在 这 个 实现 中 ， 该 实例 为 全 局 静态 变量 。 


@) 该 方法 的 path 参 数 类 型 为 const char* 类 型 ，path 用 于 将 客户 端 与 
对 应 的 znode 世 点 的 子 树 连 接 在 一 起 ， 详 细 信息 参见 10.3 阁 。 


(3) 该 画 数 的 第 三 个 参数 为 存储 到 znode 市 点 的 数据 信息 。 我 们 通过 
create_parent 芳 数 传 入 了 数据 信息 只 是 为 了 说 明 zoo_create 画 数 需 要 传 
入 数据 信息 的 参数 ， 而 在 我 们 的 例子 中 ，create_parent 并 不 是 必须 传 冲 
数据 信息 的 参数 ， 因 为 本 例 中 的 四 个 万 点 的 数据 均 为 空 值 。 


(该 参数 为 保存 数据 信息 (前 一 个 参数 ) 的 长 度 值 ， 本 例 中 ， 设 
置 为 0。 


本 例 中 ， 我 们 并 不 关心 ACL 策 略 问题 ， 所 以 我 们 均 设 置 为 unsafe 
模式 。 

9) 这些 znode 节 点 为 持久 性 的 非 有 序 节 点 ， 所 以 我 们 不 需要 传 入 任 
何 标志 位 。 


(DD 该 方法 为 异步 调用 ， 我 们 需要 传 入 一 个 完成 函数 ，ZooKeeper 客 
户 端 会 在 操作 请 求 完 成 时 调用 该 函数 。 


哆 最 后 一 个 参数 为 上 下 文 变量 ， 本 例 中 ， 不 需要 传 入 任何 上 下 文 


Kt 
val 


AZTIEN, RA EEAS A SERENE, ZooKeeper 
7 JP vita ERIE KEA Val AEB, DA FN ERKE: 


typedef void 
(*string_completion_t)(int rc,® 


const char *value, © 


const void *data);® 


@rc 为 返回 码 ， 在 所 有 完成 函数 中 都 会 返回 该 值 。 
valu X PENH FFE ° 


@data 为 在 异步 调用 时 传 入 的 上 下 文 变量 数据 ， 注 意 ， 开 发 人 员 
人 负责 该 数据 变量 指针 所 指向 的 堆 存 储 空间 的 内 存 释放 。 


在 这 个 具体 的 例子 中 ， 我 们 的 实现 如 下 : 


void create_parent_completion (int rc, const char *value, const void *data) { 
switch (rc) {0 


case ZCONNECTIONLOSS: 
create_parent(value, (const char *) data);@ 


break; 
case ZOK: 
LOG_INFO(("Created parent node", value)); 


break; 
case ZNODEEXISTS: 
LOG_WARN(("Node already exists")); 
break; 
default: 
LOG_ERROR( ("Something went wrong when running for master")); 
break; 


(DF EAE SR AE Fs EU {ay SEH o 
@) 在 连接 丢失 时 进行 重 试 操 作 。 


很 多 完成 函数 均 包含 简单 的 日 志 记 录 功 能 ， 以 便 告 诉 我 们 当前 系 
统 正在 做 什么 。 一 般 ， 完 成 贸 数 会 更 加 复杂 ， 最 好 将 各 个 完成 贸 数 的 
方法 中 的 功能 进行 分 离 ， 就 如 我 们 在 上 面 的 例子 中 所 展示 的 那样 。 

， 如 果 发 生 连 接 丢 失 的 情况 ， 上 面 的 代码 中 ， 将 会 多 次 调用 
create_parent 函 数 ， 该 调用 并 非 递 归 调 用 ， 因 为 完成 函数 并 不 是 由 
create_parent 所 调用 ， 而 且 ，create_parent 函 数 只 是 简单 的 调用 了 
ZooKeeper 的 函数 ， 所 以 没有 什么 其 他 诸如 内 存 空 间 分 配 等 附加 操作 。 
如 果 在 该 娘 数 中 存 某 些 附加 操作 ， 在 每 次 调用 前 束 需 要 先进 行 清 理 操 
作 。 


下 一 个 任务 为 竞选 主 节点 ， 竞 选 主 节点 主要 就 是 尝试 创建 /master 
节点 ， 以 便 锁定 主要 主 广 点 角色 。 异 步调 用 create 方 法 与 我 们 之 前 所 讨 
论 的 有 些 不 同 ， 代 码 如 下 : 


void run_for_master() { 
if(!connected) 
LOG_WARN(LOGCALLBACK(zh), 


"Client not connected to ZooKeeper"); 
return; 


char server_id_string[9]; 
snprintf(server_id_string, 9, "%x", server_id); 
zoo_acreate(zh, 

"/master", 

(const char *) server_id_string, @ 


sizeof(int),@ 


&Z00_OPEN_ACL_UNSAFE, 
ZOO_EPHEMERAL, ® 


master_create_completion, 
NULL); 


GO 在 /master 节 点 中 保存 服务 器 标识 符 信 息 。 


人 将 数据 的 长 度 信 息 传 入 函数 中 ， 在 这 里 ， 如 我 们 所 声明 的 ， 长 
度 为 一 个 int 型 的 长 度 。 


史 该 znode 节 点 为 临时 性 节点 ， 因 此 我 们 必须 传递 临时 性 标志 位 参 
数 。 


到 目前 为 止 ， 完 成 画 数 也 会 比 之 前 的 版 本 更 加 复杂 一 些 : 


void master_create_completion (int rc, const char *value, const void *data) { 
switch (rc) { 
case ZCONNECTIONLOSS: 
check_master();@ 


break; 
case ZOK: 
take_leadership();@ 


break; 
case ZNODEEXISTS: 
master_exists();® 


break; 
default: 
LOG_ERROR(LOGCALLBACK( zh), 
"Something went wrong when running for master."); 
break; 


Ww 


连接 丢失 时 ， 检 查 主 节点 的 znode 节 点 是 否 已 经 创建 成 功 ， 或 被 
其 他 主 市 点 进程 创建 成 功 。 


( 如 果 我 们 成 功 创建 了 节点 ， 避 C 获 得 了 管理 权 资 格 。 


(3 如 果 主 节点 znode 节 点 存在 (其 他 进程 已 经 创建 并 锁定 该 币 
点 ) ， 束 对 该 节点 建立 监视 点 ， 来 监视 该 节点 之 后 可 能 消失 的 情况 。 


如 果 该 主 节 点 进程 发 现 /master 闻 点 已 经 存在 ， 束 需要 通 


Z00_awexists 方 法 来 设置 一 个 监视 点 : 


void master_exists() { 
zZoo_awexists(zh, 
"/master", 
master_exists_watcher, ® 


NULL， 
master_exists_completion, © 


NULL); 


QD 定义 /master 节 点 的 监视 点 。 
该 exists 范 数 的 回调 方法 的 参数 。 


， 我 们 可 以 在 这 个 方法 的 调用 中 传人 上 下 文 对 象 ， 以 便 传 给 
监视 点 对 象 使 用 ， 不 过 我 们 在 这 个 例子 中 并 未 使 用 。 我 们 可 以 在 监视 
点 画 数 中 通过 一 个 指向 某 个 结构 体 或 变量 的 (void*) 类 型 指针 来 传 入 
上 下 文 对 象 的 变量 。 


在 Znode 世 点 被 删除 时 ， 我 们 会 收 到 通知 消 四 ， 以 下 代码 为 监视 点 
函数 处 理 通知 消息 的 实现 : 


void master_exists_watcher (zhandle_t *zh, 
int type, 
int state, 
const char *path, 
void *watcherCtx) {if( type == ZOO_DELETED_EVENT) { 


assert( !strcmp(path, "/master") ); run_for_master();@ 
} else { LOG_DEBUG(LOGCALLBACK( zh), "Watched event: 
', type2string(type) ); }} 


如果/masterT 点 被 删除 ， 开 始 竞选 主 节 点 流程 。 


再 回 到 我 们 之 前 的 master_exists 函 数 中 ， 我 们 实现 的 完成 函数 很 简 
单 ， 也 是 我 们 目前 为 止 一 直 采 用 的 模式 ， 细 节 上 需要 注意 一 点 ， 即 在 
执行 创建 /naster 节 点 操作 和 执行 exists 请 求 之 间 ， 也 许 /master 节 点 已 经 
被 删除 了 (例如 ， 前 一 个 主要 主 节点 进程 已 经 退出 ， 因 此 在 完成 范 
数 中 ， 我 们 还 需要 再 次 验证 该 znode 节 点 是 否 存 在 ， 如 果 不 存 在 ， 客 户 

进程 需要 再 次 竞选 主 世 点 流程 : 


void master_exists_completion (int rc, 
const struct Stat *stat, 
const void *data) { 
switch (rc) { 
case ZCONNECTIONLOSS: 
case ZOPERATIONTIMEOUT : 
master_exists(); 
break; 
case ZOK: 
if(stat == NULL) {©® 


LOG_INFO(LOGCALLBACK(zh), 
"Previous master is gone, running for master"); 
run_for_master();@ 


break; 
default: 
LOG_WARN(LOGCALLBACK(zh), 
"Something went wrong when executing exists: 
rce2string(rc)); 


break; 


QD 通过 判断 返回 的 stat 是 否 为 null 来 检查 该 znode 节 点 是 否 存 在 。 


(如 果 市 点 不 存在 ， 再 次 进行 主 节 后 竞选 的 流程 。 


一 旦 主 市 点 进程 成 为 主要 主 节 点 ， 束 可 以 开始 行使 管理 权 ， 我 们 
将 在 下 一 节 中 进行 说 明 。 


7.4 行使 管理 权 


一 旦 主 玉 点 进程 被 选 定 为 主要 主 节 点 ， 它 吏 可 以 开始 行使 其 角 
色 ， 育 先 它 将 获取 所 有 可 用 从 节点 的 列表 信息 


void take_leadership() { 
get_workers(); 


void get_workers() { 
zoo_awget_children(zh, 
"/workers", 
workers_watcher, @ 


NULL, 
workers_completion, @ 


NULL); 


设置 一 个 监视 点 来 监视 从 节点 列表 的 变化 情况 。 
人 定义 请 求 完 成 时 需要 调用 的 完成 函数 。 


我 们 在 实现 中 缓存 了 上 一 次 读 取 的 从 节点 列表 信息 ， 当 我 们 再 次 
读 取 到 一 个 新 的 列表 时 ， 我 们 将 会 替换 掉 上 昌 的 列表 ， 这 些 操作 将 在 
Zoo_awget_children 所 指定 的 完成 范 数 中 完成 : 


void workers_completion (int rc, 
const struct String _vector *strings, 


const void *data) { 
switch (rc) { 
case ZCONNECTIONLOSS: 
case ZOPERATIONTIMEOUT : 
get_workers(); 
break; 
case ZOK: 
struct String_vector *tmp_workers = 
removed_and_set(strings, &workers);® 


free_vector(tmp_workers);® 


get_tasks();® 


break; 
default: 
LOG_ERROR(LOGCALLBACK(zh), 
"Something went wrong when checking workers: %s", 
rce2string(rc)); 
break; 


ORBIT IIR ° 


我 们 的 例子 中 ， 并 没有 真正 使 用 这 些 从 节点 ， 所 以 在 某 个 从 节 
点 被 删除 时 ， 我 们 只 十 释放 缓存 换 源 。 在 重新 分 配 任 务 的 逻辑 中 ， 我 
们 也 采用 该 方式 ， 只 是 用 于 练习 的 目的 。 


Go 下 一 步 要 进行 的 是 任务 的 分 配 操作 。 


为 了 获取 任务 信息 ， 服 务 端 进程 需要 获取 /tasks 的 所 有 子 节 点 ， 并 
获取 目 上 次 读 取 后 新 引入 的 任务 列表 信息 ， 所 以 我 们 每 次 读 取 后 需要 


区 分 获取 的 列表 信息 ， 否 则 可 能 会 导致 任务 被 分 配 两 次 (任务 被 分 配 
两 次 也 是 有 可 能 的 ， 如 采 我 们 持 有 一 个 列表 ， 而 之 后 发 生 了 两 个 连续 
的 对 /tasks 世 点 的 读 操 作 并 返回 了 一 些 重 复 的 子 世 点 元 素 ， 而 此 时 ， 主 
节 扣 在读 取 前 没有 足够 的 时 间 处 理 所 有 子 方 点 元 素 ， 束 可 能 导致 无 法 


区 分 守业 于 TI ° 


void get tasks () { 
zoo_awget_children(zh, 
"/tasks", 
tasks_watcher, 
NULL, 
tasks_completion, 
NULL); 


void tasks_watcher (zhandle_t *zh, 
int type, 
int state, 
const char *path, 
void *watcherCtx) { 
if( type == ZOO_CHILD_EVENT) { 
assert( !strcmp(path, "/tasks") ); 
get_tasks();@ 


} else 
LOG_INFO(LOGCALLBACK(zh), 
"Watched event: 
type2string(type)); 


W 
£ 


} 


void tasks_completion (int rc, 
const struct String_vector *strings, 
const void *data) { 
switch (rc) { 
case ZCONNECTIONLOSS: 
case ZOPERATIONTIMEOUT: 
get_tasks(); 
break; 
case ZOK: 
LOG_DEBUG(LOGCALLBACK(zh), "Assigning tasks"); 
struct String_vector *tmp_tasks = added_and_set(strings, &tasks); 
assign_tasks(tmp_tasks);@ 


free_vector(tmp_tasks); 
break; 
default: 
LOG_ERROR(LOGCALLBACK(zh), 
"Something went wrong when checking tasks: %s", 
rce2string(rc)); 
break; 


中 如 果 任 务 列表 发 生变 化 ， 再 次 获取 任务 列表 信息 。 


将 还 没有 被 分 配 的 任务 进行 分 配 操作 。 


75 任务 分 配 


EAT ABIES fe BATS, EP, ET 
任务 列表 中 添加 一 个 znode 点 来 分 配 该 任务 ， 最 后 将 该 任务 从 /tasks 
的 子 市 点 中 删除 。 下 面 的 代码 实现 了 这 些 基本 操作 流程 ， 获 取 任 务 信 

` 分 配 任 务 、 删 除 任务 这 些 操作 均 采 用 异步 画 数 实现 ， 提 供 所 需 的 
完成 函数 。 代 码 如 下 所 示 : 


void assign_tasks(const struct String_vector *strings) { 
int i; 
for( i = 0; i < strings->count; i++) { 
get_task_data( strings->data[i] );@ 


} 


void get_task_data(const char *task) { 
if(task == NULL) return; 
char * tmp_task = strndup(task, 15); 
char * path = make_path(2, "/tasks/", tmp_task); 
zoo_aget(zh, 
path, 
0, 
get_task_data_completion, 
(const void *) tmp_task);® 


free(path); 


} 
struct task_info {® 


char* name; char *value; int value_len; char* worker; };void 
get_task_data_completion(int rc, const char *value, int value_len, 
const struct Stat *stat, const void *data) { int worker_index; switch (rc) 


{ case ZCONNECTIONLOSS: case ZOPERATIONTIMEOUT : 


fE, 


get_task_data((const char *) data); break; case ZOK: 
if (workers != NULL) { worker_index = (rand() % workers->count) ;@ 


struct task_info *new_ task;® 


new_task = (struct task_info*) malloc(sizeof(struct task_info)); 


new_task->name = (char *) data; new_task->value = strndup(value, 
value_len); new_task->value_len = value_len; const 
char * worker_string = workers->data[worker_index]; new_task- 
>worker = strdup(worker_string); task_assignment(new_task) ; © 

} break; default: 
LOG_ERROR(LOGCALLBACK( zh), "Something went wrong when 
checking the master lock: %s", rce2string(rc)); 
break; }} 


(D 对 于 每 个 任务 ， 首 先 获取 任务 详细 信息 。 


异步 调用 来 获取 任务 详细 信息 。 


(3 用 于 保存 任务 上 下 文 信息 的 结构 体 。 


(随机 选择 一 个 从 市 点 ， 将 任务 分 配给 这 个 从 市 点 。 


(3) 创建 一 个 新 的 task_info 类 型 的 变量 来 保存 任务 的 详细 信息 。 


(@) 获 取 任 务 信息 后 ， 我 们 完成 了 任务 分 配 操作 。 


到 目前 为 止 ， 以 上 代码 已 经 完成 了 任务 信息 的 读 取 和 从 节点 的 选 
下 一 步 ， 需 要 创建 用 于 表示 任务 分 配 的 znode 下 点 : 


void task_assignment(struct task_info *task) { 
char* path = make_path(4, "/assign/" , task->worker, "/", task->name); 
zoo_acreate(zh, 
path, 
task->value, 
task->value_len, 
&Z00_OPEN_ACL_UNSAFE, 
0, 
task_assignment_completion, 
(const void*) task);® 


free(path); 


void task_assignment_completion (int rc, const char *value, const void *data) { 
switch (rc) { 
case ZCONNECTIONLOSS: 
case ZOPERATIONTIMEOUT : 
task_assignment((struct task_info*) data); 


break; 
case ZOK: 
if(data != NULL) { 
char * del_path = ""; 


del_path = make_path(2, "/tasks/", 
((struct task_info*) data)->name) ; 
if(del_path != NULL) { 
delete_pending_task(del_path);@ 


} 
free(del_path); 
free_task_info((struct task_info*) data);® 


} 
break; 
case ZNODEEXISTS: 
LOG_DEBUG(LOGCALLBACK(zh), 
"Assignment has alreasy been created: %s", 
value); 
break; 
default: 
LOG_ERROR(LOGCALLBACK( zh), 
"Something went wrong when checking the master lock: %s", 
rce2string(rc)); 
break; 


GO 创建 表 示 任 务 分 配 的 znode 节 点 。 


一 旦 任务 分 配 完成 ， 主 节点 进程 从 待 分 配 任务 列表 中 删除 这 个 


任务 。 


(3) 我 们 为 task_info 类 型 的 实例 分 配 了 堆 存 储 空间 ， 因 此 我 们 现在 
可 以 释放 该 堆 内 存 。 


最 后 一 步 为 删除 /tasks 下 的 任务 广 点 ， 使 /tasks 闻 感 下 只 有 没有 被 
分 配 的 任务 。 


void delete_pending_task (const char * path) { 
if(path == NULL) return; 
char * tmp_path = strdup(path); 
zoo_adelete(zh, 
tmp_path, 


-1, 
delete_task_completion, 
(const void*) tmp_path);® 


void delete_task_completion(int rc, const void *data) { 
switch (rc) { 

case ZCONNECTIONLOSS: 

case ZOPERATIONTIMEOUT : 
delete_pending_task((const char *) data); 
break; 

case ZOK: 
free((char *) data);@ 


break; 
default: 
LOG_ERROR(LOGCALLBACK(zh), 
"Something went wrong when deleting task: %s", 
re2string(rc)); 
break; 


人 Oo 任务 节点 被 成 功 删除 后 ， 没 有 什么 其 他 需要 做 的 ， 所 以 我 们 这 
里 只 是 释放 我 们 之 前 为 存储 路 径 字 符 哩 而 分 配 的 内 存 空间 。 


7.6 ”单线 程 气 多 线程 客户 山 


ZooKeeper 的 发 行 包 中 ， 对 于 C 语 言 组 件 提供 了 两 个 选项 ， 多 线程 
和 单线 程 版 本 。 我 们 建议 开发 者 使 用 多 线程 版 本 ， 因 为 单线 程 版 本 只 
是 因为 一 些 历 史 原 因 。 在 Yahoo! 中 ， 有 些 应 用 运行 于 BSD 系 统 之 中 ， 
而 这 些 是 单线 程 的 应 用 ， 所 以 需要 我 们 需要 单线 程 版 本 的 客户 端 库 来 
使 用 ZooKeeper。 如 有 果 你 并 未 在 这 些 强迫 你 采用 单线 程 库 的 环境 中 ， 还 
征 使 用 多 线程 版 本 。 


A 


使 用 单线 程 版 本 的 库 ， 你 可 以 重用 本 章 中 介绍 的 这 些 代 码 ， 但 需 
要 额外 实现 一 个 事件 循环 操作 ， 在 我 们 的 例子 中 ， 这 个 事件 循环 如 
F: 


int initialized = 0; 
int run = 0; 
fd_set rfds, wfds, efds; 
FD_ZERO(&rfds); 
FD_ZERO(&wfds); 
FD_ZERO(&efds); 
while (!is_expired()) { 
int fd; 
int interest; 
int events; 
struct timeval tv; 
int rc; 
zookeeper_interest(zh, &fd, &interest, &tv);@ 


if (fd != -1 
if (interest&ZOOKEEPER_READ) {2 


FD_SET(fd, &rfds); 
} else { 

FD_CLR(fd, &rfds); 
} 


if (interest&ZOOKEEPER_WRITE) {® 


FD_SET(fd, &wfds); 
} else { 
FD_CLR(fd, &wfds); 


} 
} else { 
fd = 0; 
} 
/* 
* Master call to get a ZooKeeper handle. 
*/ 


if(!initialized) { 
if(init(argv[1])) {@ 


LOG_ERROR(("Error while initializing the master: ", errno)); 


} 


initialized = 1; 


The next if block contains 
calls to bootstrap the master 
and run for master. We only 
get into it when the client 
has established a session and 
is_connected is true. 


+ + + + + © 


* 
/ 
if(is_connected() && !run) {© 


LOG_INFO(("Connected, going to bootstrap and run for master")); 


了 和 
* Create parent znodes 
*/ 
bootstrap(); 
IE 
* Run for master 
4 
run_for_master(); 
run =1; 


} 
rc = select(fd+1, &rfds, &wfds, &efds, &tv);© 


events = 0; 
if (rc > 0) { 
if (FD_ISSET(fd, &rfds)) { 
events |= ZOOKEEPER_READ; © 


} 
if (FD_ISSET(fd, &wfds)) { 
events |= ZOOKEEPER_WRITE;® 


} 


zookeeper_process(zh, events);® 


GO 返回 该 客户 端 所 关心 的 事件 信息 。 
@) 添 加 ZOOKEEPER_READ 事 件 到 关注 的 事件 集合 
@ 添 加 ZOOKEEPER_WRITE 事 件 到 关注 的 事件 集合 中 。 


全 此 处 为 启动 应 用 ， 与 之 前 的 7.2 节 介绍 的 init 一 样 获取 到 一 个 
ZooKeeper 人 句柄 。 


人 当主 节点 进程 连 车 接 到 ZooKeeper 服 务 aa, PeAWCal 
ZOO_CONNECTED_EVENT 事 件 ， 该 部 分 会 执行 引导 流程 ， 并 执行 竞 
选 主 节点 流程 。 


(@) 采 用 select 方 式 来 等 待 新 事件 。 
(DD 指示 文件 描述 符 fd 发 生 了 读 事件 。 


(8 指示 文件 描述 符 fd 发 生 了 写 事件 。 


9) 处理 其 他 ZooKeeper 事 件 ，zookeeper_process 落 数 与 之 前 的 在 多 
线程 库 中 介绍 的 一 样 ， 需 要 处 理 监 视 事 件 和 完成 贸 数 ， 在 单线 程 版 本 
中 ， 我 们 必须 自己 处 理 这 些 事件 。 


这 个 事件 循环 将 会 关注 相关 的 ZooKeeper 事 件 ， 如 回调 和 会 话 事件 


Eo 
于 


使 用 多 线程 版 本 库 时 ， 编 译 客户 端 应 用 程序 需要 使 用 -1 
zookeeper_mt， 并 通过 -DTHREADED 定 义 THREADED 宏 选项 。 在 代码 
中 ， 在 编译 多 线程 库 版 本 的 程序 时 ， 通 过 THREADED 宏 定义 会 指示 在 
调用 执行 时 需要 使 用 的 代码 片段 。 使 用 单线 程 版 本 库 时 ， 使 用 -1 
Zookeeper st 来 编译 程序 ， 同 时 不 能 指定 -DTHREADED 选 项 。 在 
ZooKeeper 的 发 行 包 中 ， 你 可 以 通过 编译 步骤 指示 来 使 用 对 应 的 库 。 


注意 .阻塞 回调 函数 


如 有 果 一 个 回调 函数 阻塞 线程 执行 比如， 执行 硬盘 VO 操作 ) ， 这 
样 也 许 会 导致 会 话 超 时 ， 因 为 ZooKeeper 处 理 循环 时 无 法 获取 CPU 事 件 


来 执行 会 话 操作 ， 而 在 多 线程 版 本 库 中 不 存在 这 个 问题 ， 因 为 
ZooKeeper 会 使 用 单独 的 线程 进行 JO 的 处 理 和 完成 函数 的 调用 。 


77 测定 


ZooKeeper 的 C 语 言 版 本 组 件 非 常 流行 ， 在 本 章 中 我 们 介绍 了 如 何 
使 用 C 语 言 组 件 进 行 应 用 程序 的 开发 。 开 发 应 用 程序 的 流程 与 我 们 之 
前 介绍 的 Java 语 言 版 本 没有 什么 不 同 ， 关 键 的 差异 主要 来 目 于 语言 
间 的 差异 。 例 如 ， 我 们 需要 人 负责 堆 内 存 空间 的 管理 ， 而 在 Java 语 言 中 
我 们 将 这 些 操作 都 委托 给 了 JVM。 同 时 我 们 还 介绍 了 ZooKeeper 所 提供 
的 多 线程 应 用 和 单线 程 应 用 这 两 种 实现 方式 ， 我 们 强烈 建议 开发 者 使 
用 多 线程 版 本 ,但 是 因为 在 发 行 包 中 也 有 单线 程 版 本 ， 我 们 也 介绍 了 
单线 程 版 本 开发 库 的 使 用 。 


第 8 章 Curator: ZooKeeper API 的 高 级 封装 库 


Curator 作 为 ZooKeeper 的 一 个 高 层次 封装 库 ， 为 开发 人 员 封装 了 
ZooKeeper 的 一 组 开发 库 ，Curator 的 核心 目标 就 是 为 你 管理 ZooKeeper 
的 相关 操作 ， 将 连接 管理 的 复杂 操作 部 分 隐藏 起 来 (理想 上 是 隐藏 全 
部 ) 。 我 们 在 之 前 的 内 容 中 多 次 讨论 了 连接 管理 有 多 人 么 坏 手 ， 通 过 
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开发 过 程 中 的 最 佳 实践 和 常见 的 边际 情况 的 处 理 。 例 如 ，Curator 实 现 
了 如 锁 (lock) 、 屏 障 (barrier) `R (cache) 这 些 原 语 的 业 谱 ， 
还 实现 了 流畅 (fluent) 式 的 开发 风格 的 接口 。 流 畅 式 接口 能 够 让 我 们 
将 ZooKeeper 中 create、delete、getData 等 操作 以 流水 线 式 的 编程 方式 链 
式 执行 。 同 时 ，Curator 还 提供 了 命名 空间 (namespace) 、 上 自动 重 连 和 
一 些 其 他 组 件 ， 使 得 应 用 程序 更 加 健壮 。 


Curator 组 件 最 初 由 Netflix 公 司 页 献 并 实现 ， 而 最 近 已 经 提升 为 
Apache 软 件 基金 会 的 顶级 项 目 。 


本 章 将 通过 Curator 来 讲解 如 何 实 现 我 们 之 前 的 例子 中 的 主 节点 程 
序 。 我 们 并 不 会 大 范围 地 详细 讨论 Curator， 而 是 简单 介绍 Curator 的 功 
能 ， 并 将 重点 介绍 Curator 所 提供 的 某 些 方便 ZooKeeper 应 用 程序 使 用 


的 特性 。Curator 的 详细 功能 列表 请 访问 该 项 目 网 站 


(http:Wcurator.apache.org/ ) ° 


8.1 Curator 客 户 端 程序 


与 使 用 ZooKeeper 库 开发 时 一 样 ， 使 用 Curator 库 进行 开发 ， 我 们 
首先 需要 创建 一 个 客户 端 实例 ， 客 户 端 实例 为 CuratorFramework 类 的 
实例 对 象 ， 我 们 通过 调用 Curator 提 供 的 工厂 方法 来 获得 该 实例 : 


CuratorFramework zkc = 
CuratorFrameworkFactory.newClient(connectString, retryPolicy); 


其 中 ，connectString 输 入 参数 为 我 们 将 要 连接 的 ZooKeeper 服 务 内 
的 列表 ， 就 像 创 建 ZooKeeper 客 户 端 时 一 样 。retryPolicy 参 数 为 Curator 
提供 的 者 特性 ， 通 过 这 个 参数 ， 开 发 人 员 可 以 指定 对 于 失去 连接 事件 
重 试 操作 的 处 理 策 略 。 而 在 之 前 肖 规 的 ZooKeeper 接 口 的 开发 中 ， 在 发 
生 连 接 丢 失事 件 时 ， 我 们 往往 需要 再 次 提交 操作 请 求 。 


TER: 我 们 的 例子 中 ， 实 例 化 CuratorFramework 类 作为 客户 端 。 
事实 上 ， 在 工厂 类 中 还 提供 了 其 他 方法 来 创建 实例 ， 但 我 们 并 不 评 细 
讨论 。 其 中 有 一 个 CuratorZooKeeperClient 类 ， 该 类 在 ZooKeeper 客 户 端 
实例 上 提供 了 某 些 附加 功能 ， 如 保证 请 求 操 作 在 不 可 预见 的 连接 断 开 
情况 下 也 能 够 安全 执行 ， 与 CuratorFramework 类 不 同 ， 
CuratorZooKeeperClient 类 中 的 操作 执行 与 ZooKeeper 客 户 端 句柄 直接 相 
XT ° 
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流畅 式 API 可 以 让 我 们 编写 链 式 调用 的 代码 ， 而 不 用 在 进行 请 求 
操作 时 采用 严格 的 签名 方案 。 例 如 ， 在 标准 的 ZooKeeper 的 API 中 ， 我 
们 同步 创建 一 个 znode 闻 点 的 方法 如 下 : 


zk.create("/mypath", 
new byte[0], 
ZooDefs.Ids.OPEN_ACL_UNSAFE, 
CreateMode.PERSISTENT) ; 


在 Curator 的 流畅 式 API 中 ， 我 们 的 调用 方式 如 下 : 


zkc.create().withMode(CreateMode.PERSISTENT).forPath("/mypath", new byte[0]); 


其 中 create 调 用 返回 一 个 CreateBuilder 类 的 实例 ， 随 后 调用 的 返回 
均 为 CreateBuilder 类 所 继承 的 对 象 。 例 如 ，CreateBuilder 继 承 了 
CreateModable<ACLBackgroundPathAndBytesable<String>> 类 ， 而 
withMode 方 法 中 声明 了 泛 型 接口 CreateModable<T>。 在 Curator 框 架 的 
客户 端 对 象 实例 中 ， 其 他 的 如 delete、getData、checkExists 和 
getChildren 方 法 也 适用 这 种 Builder 模 式 。 


对 于 异步 的 执行 方法 ， 我 们 只 需要 增加 inBackground: 


zkc.create().inBackground().withMode(CreateMode.PERSISTENT).forPath("/mypath", 
new byte[0]); 


以 上 调用 将 会 立刻 返回 ， 我 们 需要 创建 一 或 多 个 监听 器 来 接收 
znode 节 点 创建 后 的 返回 ， 在 下 一 节 中 我 们 将 介绍 监听 器 ， 并 介绍 如 何 
注册 监听 器 。 


很 多 方法 可 以 实现 异步 调用 的 回调 处 理 。 假 设 在 之 前 的 调用 中 ， 
回调 方式 将 会 通过 CREATE 事 件 传 递 给 注册 的 监听 器 。inBackground 调 
用 可 以 传 入 一 个 上 下 文 对 象 ， 通 过 该 参数 可 以 传 入 一 个 具体 的 回调 方 
法 的 实现 ， 或 是 一 个 执行 回调 的 执行 妖 

(java.util.concurrent.Executor) 。 在 Java 中 ， 执 行 器 (executor) WR 
可 以 执行 可 运行 的 对 象 ， 我 们 可 以 通过 执行 器 将 回调 方法 的 执行 与 
ZooKeeper 客 户 剖 线程 的 运行 解 炸 ， 采 用 执行 磊 常 常 比 为 每 个 任务 新 建 
一 个 线程 更 好 。 


为 了 设置 监视 点 ， 我 们 只 需要 简单 地 在 调用 链 中 增加 watched 方 法 
VARTA, aH: 


zkc.getData().inBackground().watched().forPath("/mypath") ; 


上 面 设置 的 监视 点 将 会 通过 监听 器 触发 通知 ， 这 些 通知 将 会 以 
WAICHED 事 件 传递 给 指定 的 监听 右 。 我 们 还 可 以 使 用 usingWathcer 方 
法 替换 watched 方 法 ，usingWathcer 方 法 接受 一 个 普通 的 ZooKeeper 的 
Wathcer 对 象 ， 并 在 接收 到 通知 后 调用 该 监视 点 方法 。 第 三 种 选择 就 十 


传 入 一 个 CuratorWatcher 对 象 ，CuratorWatcher 的 process 方 法 与 


ZooKeeper 的 Watcher 不 同 的 是 ， 它 可 能 会 抛 出 异常 。 


监听 器 (listener) 负责 处 理 Curator 库 所 产生 的 事件 ， 使 用 这 种 机 
制 时 ， 应 用 程序 中 会 实现 一 个 或 多 个 监听 胡 ， 并 将 这 些 监听 右 注 册 到 
Curator 的 框架 客户 端 实例 中 ， 当 有 事件 发 生 时 ， 这 些 事件 丈 会 传递 给 
所 有 已 注册 的 监听 器 


监听 需 机 制 是 一 种 通用 模式 ， 在 异步 处 理事 件 时 都 可 以 使 用 这 种 

机 制 。 我 们 在 前 一 节 中 已 经 讨论 过 Curator 的 监听 器 ，Curator 使 用 监听 

器 来 处 理 回调 方法 和 监视 通知 。 该 机 制 也 可 以 用 于 后 台 任 务 产生 的 异 
常 处 理 逻 辑 中 。 


让 我 们 来 看 一 看 如 何 实 现 一 个 监听 器 ， 在 我 们 Curator 主 节 扩 的 例 
子 中 ， 如 何 处 理 所 有 的 回调 方法 和 监视 点 的 通知 ， 首 和 完 ， 我 们 需要 实 


现 一 个 CuratorListenner 接 口 : 


CuratorListener masterListener = new CuratorListener() 
public void eventReceived(CuratorFramework client, CuratorEvent event) { 
try { 
switch oo a { 
case CHILDRE 


break; 
case CREATE: 


break; 
case DELETE: 

break; 
case WATCHED: 


break; 


} catch (Exception e) { 
LOG.error("Exception while processing event.", e); 


try { 
close(); 

} catch (I0Exception ioe) { 
LOG.error("IOException while closing.", ioe); 


} 
} 
}; 


因为 我 们 只 是 为 了 说 明 监 听 右 实现 的 结构 ， 所 以 代码 中 每 种 事件 
的 详细 操作 都 被 名 略 了 ， 对 于 代码 细节 ， 可 以 通过 下 载 本 书 的 代码 示 
例 来 查看 (https://github.com/fpj/zookeeper-book-example ) ° 


之 后 ， 我 们 需要 注册 这 个 监听 器 ， 此 时 ， 我 们 需要 一 个 框架 客户 
端 实例 ， 创 建 方式 可 以 采用 我 们 之 前 所 介绍 的 方式 : 


client = CuratorFrameworkFactory.newClient(hostPort, retryPolicy); 


MERA TER PASE Bl, Be PORE ARS Dae 


client.getCuratorListenable().addListener(masterListener ); 


DARL BOPIRAY tn tae, CSR UT ae 1 oo Sb EB ig GL FATE 
HAA Pein, ARATA DE TREAT AEE, 7S 
， 也 许 你 在 你 的 应 用 程序 中 需要 处 理 这 类 问题 。 当 应 用 程序 需要 处 
理 这 些 问 题 时 ， 束 必须 实现 男 一 个 监听 器 


UnhandledErrorListener errorsListener = new UnhandledErrorListener() { 
public void unhandledError(String message, Throwable e) { 
LOG.error("Unrecoverable error: " + message, e); 
try { 


close(); 
} catch (I0Exception ioe) { 

LOG.warn( "Exception when closing.", ioe ); 
} 


} 


同时 ， 将 该 监听 器 注册 到 客户 端 实例 中 ， 如 下 所 示 : 


client.getUnhandledErrorListenable().addListener(errorsListener ); 


注意 ， 我 们 本 市 中 所 讨论 的 天 于 将 监听 右 作 为 事件 处 理 絮 的 实现 
方式 ， 与 在 之 前 的 章节 中 所 建议 的 ZooKeeper 应 用 程序 的 实现 不 同 (请 
W437) 。 之 前 ， 我 们 采用 链 式 调用 和 回调 方法 ， 而 且 每 个 回调 方法 
都 需要 提供 一 个 不 同 的 回调 实现 ， 而 在 Curator 实 例 中 ， 回 调 方法 或 监 
视点 通知 这 些 细 市 均 被 封装 为 Event 类 ， 这 也 是 更 适合 使 用 一 个 事件 处 
理 句 的 实现 方式 。 


8.4 ”Curator 中 状态 的 转换 


在 Curator 中 暴露 了 与 ZooKeeper 不 同 的 一 组 状态 ， 比 如 
SUSPENDED 状 态 ， 还 有 Curator 使 用 LOST 来 表示 会 话 过 期 的 状态 。 图 
8-1 中 展示 了 连接 状态 的 状态 机 模型 ， 当 处 理 状 态 的 转换 时 ， 我 们 建议 
将 所 有 主 市 点 操 作 请 求 和 暂停， 因为 我 们 并 不 知道 ZooKeeper 客 户 端 能 否 
证 会 话 过 期 前 重新 连接 ， 即 使 ZooKeeper 客 户 端 重新 连接 成 功 ， 也 可 能 
不 再 是 主要 主 市 点 的 角色 ， 因 此 谨慎 处 理 连接 丢失 的 情况 ， 对 应 用 程 
序 更 加 安全 。 


Suspended 


Reconnected 


图 8-1: Curator 连 接 状 态 机 模型 


在 我 们 的 例子 中 ， 并 未 涉及 的 状态 还 有 一 个 READ_ONLY 状 态 ， 
当 ZooKeeper 集 群 局 用 了 只 谈 借 式 ， 客 户 端 所 连接 的 服务 天 融会 进入 只 
读 模 式 中 ， 此 时 的 连接 状态 也 将 进入 只 读 模 式 。 服 务 郁 转换 到 只 读 模 
式 后 ， 该 服务 右 束 会 因 隔 离 问 题 而 无 法 与 其 他 服务 器 共同 形成 仲裁 的 


最 低 法 定数 量 ， 当 连接 状态 为 制度 模式 ， 客 户 端 也 将 漏 掉 此 时 发 生 的 
任何 更 新 操作 ， 因 为 如 果 集 群 中 存在 一 个 子 集 的 服务 硕 数 量 ， 可 以 满 
足 仲 裁 最低 法 定数 量 ， 并 可 以 接收 到 客户 端的 对 ZooKeeper 的 更 新 操 
作 ， 还 是 会 发 生 ZooKeeper 的 更 新 ， 也 许 这 个 子 集 的 服务 器 会 持续 运行 
很 久 es 法 控制 这 种 情况 ) ， 那 么 漏 掉 的 更 新 操作 可 能 会 无 
限 多 。 漏 掉 更 新 操作 的 结果 可 能 会 导致 应 用 程序 的 不 正确 的 操作 行 

为 ， 所 以 ， 我 们 强烈 建议 局 用 该 模式 前 仔细 考虑 其 后 果 。 注 意 ， 只 读 

模式 并 不 是 Curator 所 独 有 的 功能 ， 而 是 通过 ZooKeeper 启 用 该 选项 〈 见 
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8.5 Mav 


有 两 种 有 趣 的 错误 场景 ， 在 Curator 中 都 可 以 处 理 得 很 好 ， 第 一 种 
征 在 有 序 万 点 的 创建 过 程 中 发 生 的 错误 情况 的 处 理 ， 第 二 种 为 删除 一 
个 节点 时 的 错误 处 理 。 


有 序 市 点 的 情况 


如 果 客 户 端 所 连接 的 服务 器 裔 省 了 ， 但 还 没 来 得 及 返回 客户 端 所 
创建 的 有 序 节 点 的 节点 名 称 〈 即 节点 序列 号 ) ， 或 者 客户 端 只 是 连接 
丢失 ， 客 户 端 没 接 收 到 所 请 求 操作 的 响应 信息 ， 结 果 ， 客 户 端 并 不 知 
道 所 创建 的 znode 世 点 路 径 名 称 。 回 忆 我 们 对 于 有 序 世 点 的 应 用 场景 ， 
例如 ， 建 立 一 个 有 序 的 所 有 客户 端 列表 。 为 了 解决 这 个 问题 ， 

CreateBuilder 提 供 了 一 个 withProtection 方 法 来 通知 Curator 客 户 端 ， 在 
创建 的 有 序 节点 前 添加 一 个 唯一 标识 符 ， 如 果 create 操 作 失 败 了 ， 客 户 
端 就 会 开始 重 试 操 作 ， 而 重 试 操 作 的 一 个 步骤 就 是 验证 是 否 存在 一 个 


广 护 包含 这 个 唯一 标识 件 。 
删除 市 点 的 保障 


在 进行 delete 操 作 时 也 可 能 发 生 类 似 情况 ， 如 果 客 户 端 在 执行 
delete 操 作 时 ， 与 服务 器 之 间 的 连接 丢失 ， 客 户 端 并 不 知道 delete 操 作 


是 否 成 功 执 行 。 如 果 一 个 znode 市 点 删除 与 否 表示 某 些 特殊 情况 ， 例 
如 ， 表 示 一 个 资源 处 于 锁定 状态 ， 因 此 确保 该 节点 删除 才能 确保 资源 
的 锁定 被 释放 ， 以 便 可 以 再 次 使 用 。Curator 客 户 端 中 提供 了 一 个 方 
法 ， 对 应 用 程序 的 delete 操 作 的 执行 提供 了 保障 ，Curator 客 户 端 会 重新 
执行 操作 ， 直 到 成 功 为 止 ， 或 Curator 客 户 端 实例 不 可 用 时 。 使 用 该 功 
能 ， 我 们 只 需要 使 用 DeleteBuilder 接 口中 定义 的 guaranteed 方 法 。 


Se Soe 
8.6 xen 


Curator 提 供 了 很 多 种 菜谱 ， 建 议 你 看 一 看 这 些 可 用 的 菜谱 实现 的 
列表 。 在 我 们 的 Curator 主 方 点 例子 的 实现 中 ， 用 到 了 三 种 菜谱 : 
LeaderLatch、LeaderSelector 和 PathChildrenCache ° 


8.6.1 群 首 门 


我 们 可 以 在 应 用 程序 中 使 用 群 首 门 (leader latch) 这 个 原 语 进 行 
主 太 点 选举 的 操作 。 首 先 我 们 需要 创建 一 个 LeaderLatch 的 实例 : 


leaderLatch = new LeaderLatch(client, "/master", myId); 


LeaderLatchhý t E KAU, He Bee A —P Curator ER R M vin ASE 
例 ， 一 个 用 于 表示 集群 管理 万 点 的 群 组 的 ZooKeeper 路 径 ， 以 及 一 个 表 
示 当 前 主 节点 的 标识 符 。 为 了 在 Curator 客 户 端 获 得 或 失去 管理 权时 能 
够 进行 回调 处 理 操作 ， 我 们 需要 注册 一 个 LeaderLatchListener 接 口 的 实 
现 ， 该 接口 中 有 两 个 方法 : isLeader 和 notLeader。 以 下 为 isLeader 实 现 
的 代码 : 


@Override 
public void isLeader() 
{ 
fae m 
* Start workersCache® 


*/ 
workersCache.getListenable().addListener(workersCacheListener ) ; 
workersCache.start(); 
(new RecoveredAssignments( 
client .getZooKeeperClient().getZooKeeper())).recover( 
new RecoveryCallback() { 
public void recoveryComplete (int rc, List<String> tasks) { 
try { 
if(rc == RecoveryCallback.FAILED) { 
LOG.warn("Recovery of assigned tasks failed."); 
} else { 
LOG.info( "Assigning recovered tasks" ); 
recoveryLatch = new CountDownLatch(tasks.size()); 
assignTasks(tasks);@ 


} 
new Thread( new Runnable() {® 


public void run() { 

try { 

/* 
* Wait until recovery is complete 
*/ 

recoveryLatch.await(); 

f* 
* Start tasks cache 
s7 

tasksCache.getListenable(). 

addListener(tasksCacheListener ) ;@ 


tasksCache.start(); 
} catch (Exception e) { 
LOG.warn("Exception while assigning 
and getting tasks.", 
e ); 
} 
} 
}).start(); 
} catch (Exception e) { 
LOG.error("Exception while executing the recovery callback", 
e); 


我 们 首先 初始 化 一 个 从 而 点 缓存 列表 的 实例 ， 以 确保 有 可 以 分 
配 任务 的 从 闻 点 。 


一 旦 发 现存 在 之 前 的 主 节 点 没有 分 配 完 的 任务 需要 分 配 ， 我 们 
将 继续 进行 任务 分 配 。 


(3 我 们 实现 了 一 个 任务 分 配 的 屏障 ， 这 样 我 们 就 可 以 在 开始 分 配 
新 任务 前 ， 等 待 已 恢复 的 任务 的 分 配 完 成 ， 如 果 我 们 不 这 样 做 ， 新 的 
主 节 点 会 再 次 分 配 所 有 已 恢复 的 任务 。 我 们 启动 了 一 个 单独 的 线程 进 
行 处 理 ， 以 便 不 会 锁 住 ZooKeeper 客 户 端 回 调 线程 的 运行 。 


网 当 主 节 点 完成 恢复 任务 的 分 配 操作 ， 我 们 开始 进行 新 任务 的 分 
配 操作 ° 


我 们 实现 的 这 个 方法 作为 CuratorMasterLatch 类 的 一 部 分 ， 而 
CuratorMasterLatch 类 为 LeaderLatchListener 接 口 的 实现 类 ， 我 们 需要 在 
具体 流程 开始 前 注册 监听 器。 我 们 在 runForMaster 方 法 中 进行 这 两 步 操 
作 ， 同 时 ， 我 们 还 将 注册 男 外 两 个 监听 侣 ， 来 处 理事 件 的 监 昕 和 错 


mi 


TR: 


public void runForMaster() { 
client.getCuratorListenable().addListener(masterListener ); 
client .getUnhandledErrorListenable().addListener(errorsListener ); 
leaderLatch.addListener(this); 
leaderLatch.start(); 

} 


对 于 notLeader 方 法 ， 我 们 会 在 主 世 点 失去 管理 权时 进行 调用 ， 在 
本 例 中 ， 我 们 只 是 简单 地 关闭 了 所 有 对 象 实例 ， 对 这 个 例子 来 说 ， 这 
些 操 作 已 经 足够 了 。 在 实际 的 应 用 程序 中 ， 你 也 许 还 需要 进行 某 些 状 
态 的 清理 操作 并 等 竺 再 次 成 为 主 丰 点 。 如 采 LeaderLatch 对 象 没有 天 
闭 ，Curator 客 户 端 有 可 能 再 次 获得 管理 权 。 


8.6.2 FFAIR 


选举 主 节 点 时 还 可 以 使 用 的 另 一 个 荣 谱 为 LeaderSelector 。 
LeaderSelector 和 LeaderLatch 之 间 主 要 区 别 在 于 使 用 的 监听 器 接口 不 
同 ， 其 中 LeaderSelector 使 用 了 LeaderSelectorListener 接 口 ， 该 接口 中 定 
义 了 takeLeadership 方 法 ， 并 继承 了 stateChanged 方 法 ， 我 们 可 以 在 我 们 
的 应 用 程序 中 使 用 群 首 门 原 语 来 进行 一 个 主 节 点 的 选举 操作 ， 首 先 我 
们 需要 创建 一 个 LeaderSelector 实 例 。 


leaderSelector = new LeaderSelector(client, "/master", this); 


LeaderSelector JHE HAH, A Curatori RRA wig SE fi 
一 个 表示 该 主 世 点 所 参与 的 集群 管理 和 点 群 组 的 ZooKeeper 路 径 ， 以 及 
一 个 LeaderSelectorListener 接 口 的 实现 类 的 实例 。 集 群 管理 节点 群 组 表 
示 所 有 参与 主 节 点 选举 的 Curator 客 户 端 。 在 LeaderSelectorListener 的 实 
现 中 必须 包含 takeLeadership 方 法 和 stateChanged 方 法 ， 其 中 


takeLeadership 方 法 用 于 获取 管理 权 ， 在 我 们 的 例子 中 ， 该 代码 实现 与 
isLeader 类 似 ， 以 下 为 我 们 实现 的 takeLeadership 方 法 : 


CountDownLatch leaderLatch = new CountDownLatch(1); 
CountDownLatch closeLatch = new CountDownLatch(1);’ 


@Override 
public void takeLeadership(CuratorFramework client) throws Exception 


{ 


/* 
* Start workersCache 
ay 
workersCache.getListenable().addListener(workersCacheListener ) ; 
workersCache.start(); 
(new RecoveredAssignments( 
client .getZooKeeperClient().getZooKeeper())).recover( 
new RecoveryCallback() { 
public void recoveryComplete (int rc, List<String> tasks) { 
try { 
if(rc == RecoveryCallback.FAILED) { 
LOG.warn("Recovery of assigned tasks failed."); 
} else { 
LOG.info( "Assigning recovered tasks" ); 
recoveryLatch = new CountDownLatch(tasks.size()); 
assignTasks(tasks); 


new Thread( new Runnable() { 
public void run() { 
try { 
Z= 
* Wait until recovery is complete 
*/ 
recoveryLatch.await(); 
深交 
* Start tasks cache 
*/ 
tasksCache.getListenable(). 
addListener(tasksCacheListener ); 
tasksCache.start(); 
} catch (Exception e) { 
LOG.warn("Exception while assigning 
and getting tasks.", 
e ); 
} 
} 
}).start(); 
f* 
* Decrement latch 
*/ 
leaderLatch.countDown();@® 


} catch (Exception e) { 
LOG.error("Exception while executing the recovery callback", 
e); 


} 
}); 
/* 
* This latch is to prevent this call from exiting. If we exit, then 
* we release mastership. 
* 


closeLatch.await();@ 


Q) 我 们 通过 一 个 单独 的 CountDownLatch 原 语 来 等 待 该 Curator 客 户 
端 获 取 管 理 权 。 


如 果 主 节点 退出 了 takeLeadership 方 法 ， 也 就 放弃 了 管理 权 ， 我 
们 通过 CountDownLatch 来 阻止 退出 该 方法 ， 直 到 主 节 点 关闭 为 止 。 


我 们 实现 的 这 个 方法 为 CuratorMaster 类 的 一 部 分 ， 而 
CuratorMaster 类 实现 了 LeaderSelectorListener 接 口 。 对 于 主 节 点 来 说 ， 
如 果 想 要 释放 管理 权 只 能 退出 takeLeadership 方 法 ， 所 以 我 们 需要 通过 
某 些 锁 等 机 制 来 阻止 该 方法 的 退出 ， 在 我 们 的 实现 中 ， 我 们 在 退出 主 
节点 时 通过 递减 门 (latch) 值 来 实现 。 


我 们 依然 在 ranForMaster 方 法 中 启动 我 们 的 主 节 点 选择 器 ， 与 
LeaderLatch 的 方式 不 同 ， 我 们 不 需要 注册 一 个 监听 器 (因为 我 们 在 构 


je AN CAE Star): 


public void runForMaster() { 
client.getCuratorListenable().addListener(masterListener ); 
client.getUnhandledErrorListenable().addListener(errorsListener ); 
leaderSelector.setId(myId); 
leaderSelector.start(); 


} 


另外 我 们 还 需要 给 这 个 主 市 点 一 个 任意 的 标识 符 ， 虽 然 我 们 在 本 
例 中 并 未 实现 ， 但 我 们 可 以 设置 群 首选 择 器 在 失去 管理 权 后 自动 重新 
排队 (LeaderSelector.autoRequeue) 。 重 新 排队 意味 着 该 客户 端 会 一 直 
尝试 获取 管理 权 ， 并 在 获得 管理 权 后 执行 takeLeadership 方 法 。 


作为 LeaderSelectorListener 接 口 实现 的 一 部 分 ， 我 们 还 实现 了 一 个 
处 理 连接 状态 变化 的 方法 : 


@Override 
public void stateChanged(CuratorFramework client, ConnectionState newState) 


switch(newState) { 

case CONNECTED: 
//Nothing to do in this case. 
break; 

case RECONNECTED: 
// Reconnected, so I should® 


// still be the leader. 
break; 
case SUSPENDED: 
LOG.warn("Session suspended"); 
break; 
case LOST: 
try { 
close();®@ 


} catch (I0Exception e) 
LOG.warn( "Exception while closing", e ); 


了 
case READ_ONLY: 
// We ignore this case. 
break; 


GD 所 有 操作 均 需 要 通过 ZooKeeper 集 群 实现 ， 因 此 ， 如 果 连 接 丢 
失 ， 主 市 点 也 束 无 法 先进 行 任何 操作 请 求 ， 因 此 在 这 里 我 们 最 好 什么 
都 不 做 。 


他 如 果 会 话 丢 失 ， 我 们 只 是 关闭 这 个 主 节点 程序 。 


8.6.3 TTAR a 


RIESA PEHE a PSR i eT tt 
(PathChildrenCached 类 ) 。 我 们 将 使 用 该 类 保存 从 市 点 的 列表 和 任务 
列表 ， 该 缓存 器 负责 保存 一 份子 下 点 列表 的 本 地 拷贝 ， 并 会 在 该 列表 
发 生变 化 时 通知 我 们 。 注 意 ， 因 为 时 间 问 题 ， 也 许 在 某 些 特定 时 间 点 
该 缓存 的 数据 集合 与 ZooKeeper 中 保存 的 信息 并 不 一 致 ， 但 这 些 变化 最 
终 都 会 反映 到 ZooKeeper 中 。 


为 了 处 理 每 一 个 缓存 器 实例 的 变化 情况 ， 我 们 需要 一 个 
PathChildrenCacheListener 接 口 的 实现 类 ， 该 接口 中 只 有 一 个 方法 
childEvent。 对 于 从 市 点 信息 的 列表 ， 我 们 只 关心 从 节点 离开 的 情况 ， 


因为 我 们 需要 重新 分 配 已 经 分 给 这 些 市 点 的 任务 ， 而 列表 中 添加 信息 
对 于 分 配 新 任务 更 加 重要 : 


PathChildrenCacheListener workersCacheListener = new PathChildrenCacheListener() 
public void childEvent(CuratorFramework client, PathChildrenCacheEvent event) 
if(event.getType() == PathChildrenCacheEvent.Type.CHILD_REMOVED) { 
f* 


* Obtain just the worker's name 
*/ 


try { 
getAbsentwWorkerTasks(event.getData().getPath().replaceFirst( 
"/workers/", "")); 
} catch (Exception e) { 
LOG.error("Exception while trying to re-assign tasks.", e); 


} 


}; 


对 于 任务 列表 ， 我 们 通过 列表 增加 的 情况 来 触发 任务 分 配 的 过 
ff. 


PathChildrenCacheListener tasksCacheListener = new PathChildrenCacheListener() { 
public void childEvent(CuratorFramework client, PathChildrenCacheEvent 
event) { 
if(event.getType() == PathChildrenCacheEvent.Type.CHILD_ADDED) { 
try { 
assignTask(event.getData().getPath().replaceFirst("/tasks/","")); 
} catch (Exception e) { 
LOG.error("Exception when assigning task.", e); 
} 


}; 


主意 ， 我 们 这 里 假设 至 少 有 一 个 可 用 的 从 市 点 可 以 分 配 任 务 给 
当前 没有 可 用 的 从 市 点 时 ， 我 们 需要 暂停 任务 分 配 ， 并 保存 列表 
言 尽 的 增加 信息 ， 以 便 在 从 市 点 列表 中 新 增 可 用 从 节点 时 可 以 将 这 


没有 分 配 的 任务 进行 分 配 。 为 了 简单 起 见 ， 我 们 并 没有 实现 这 一 功 
能 ， 读 者 可 以 作为 练习 目 己 实 现 。 


8.7. AWE 


Curator 实 现 了 一 系列 很 不 错 的 ZooKeeper API 的 扩展 ， 将 
ZooKeeper 的 复 洒 性 进行 了 抽象 ， 并 实现 了 在 实际 生产 环境 中 经 验 的 最 
佳 实践 和 社区 讨论 的 某 些 特性 。 在 本 划 中 ， 我 们 通过 我 们 的 主 从 模式 
的 例子 ， 描 述 了 如 何 通过 Curator 所 提供 的 功能 来 实现 一 个 主 方太 角色 
的 程序 ， 我 们 用 到 了 群 首选 举 的 实现 和 子 市 点 缓存 各 ， 通 过 这 些 我 们 
实现 了 主 市 点 中 的 重要 特性 。 这 两 个 菜谱 并 不 古 Curator 所 提供 的 所 有 
特性 ， 还 有 很 多 其 他 表 谱 和 特性 可 以 供 我 们 使 用 。 


第 二 部 分 ZooKeeper 的 管理 


本 书 该 部 分 将 会 介绍 有 关 ZooKeeper 的 管理 的 相关 信息 。 通 过 深入 
ZooKeeper 的 内 部 运行 原理 提供 给 你 相关 的 管理 背景 ， 使 你 可 以 在 关键 
问题 上 做 出 正确 的 选择 ， 例 如 你 需要 多 少 台 ZooKeeper 服 务 器 ， 你 如 何 
调整 这 些 服 务 右 之 间 的 通信 。 


第 9 章 ”ZooKeeper 内 部 原理 


本 章 与 其 他 章节 不 同 ， 本 章 不 会 讲解 任何 关于 如 何 通过 ZooKeeper 
构建 一 个 应 用 程序 相关 的 知识 ， 主 要 是 介绍 ZooKeeper 内 部 是 如 何 运 行 
的 ， 通 过 从 高 层次 介绍 其 所 使 用 的 协议 ， 以 及 ZooKeeper 所 采用 的 在 提 
供 高 性 能 的 同时 还 具有 容错 能 力 的 机 制 。 这 些 内 容 非常 重要 ， 通 过 这 
些 为 大 家 提供 了 一 个 更 深度 的 视角 来 分 析 为 什么 程序 与 ZooKeeper 一 同 
工作 时 会 如 此 运行 。 如 果 你 打算 运行 ZooKeeper， 该 视角 对 你 会 非常 有 
用 ， 同 时 本 章 也 是 下 一 章 的 育 景 知识 。 


我 们 在 前 几 章 中 已 经 了 解 ，ZooKeeper 运 行 于 一 个 集群 环境 中 ， 客 
尸 端 会 连接 到 这 些 服 务 器 执行 操作 请 求 ， 但 完 苋 这 些 服务 右 对 客户 闪 
所 发 送 的 请 求 操 作 做 了 哪些 工作 ? 我 们 在 第 2 革 中 已经 提 到 了 ， 我 们 选 
择 某 一 个 服务 器 ， 称 之 为 群 首 (leader) 。 其 他 服务 器 追随 群 首 ， 被 称 
为 追随 者 (follower) 。 群 首 作为 中 心 点 处 理 所 有 对 ZooKeeper 系 统 变 
更 的 请 求 ， 它 谍 像 一 个 定 序 器 ， 建 立 了 所 有 对 ZooKeeper 状 态 的 更 新 的 
顺序 ， 追 随 者 接收 群 蛙 所 发 出 更 新 操作 请 求 ， 并 对 这 些 请 求 进行 处 
理 ， 以 此 来 保障 状态 更 新 操作 不 会 发 生 碰撞 。 


群 首 和 追随 者 组 成 了 保障 状态 变化 有 序 的 核心 实体 ， 同 时 还 存在 
第 三 类 服务 器 ， 称 为 观察 者 (observer) 。 观 察 者 不 会 参与 决策 哪些 请 


求 可 被 接受 的 过 程 ， 只 是 观察 决策 的 结 末 ， 观 察 者 的 设计 只 十 为 了 系 
统 的 可 扩展 性 。 


本 章 中 ， 我 们 还 会 介绍 我 们 用 于 实现 ZooKeepeit 和 集群 和 服务 器 与 客 
户 端 内 部 通信 所 使 用 的 协议 。 我 们 首先 以 客户 端的 请 求 和 事务 的 这 些 


常见 概念 展开 讨论 ， 这 些 概 念 将 贯穿 本 章 后 续 部 分 。 


注意 : 代码 参考 


因为 本 章 涉 及 系统 内 部 运行 原理 ， 我 们 认为 提供 代码 的 参考 会 更 
有 用 ， 因 此 通过 源 代 码 与 本 章 中 的 内 容 相对 应 来 阅读 本 草 ， 更 好 的 对 
应 其 中 的 类 和 方法 。 


9.1 请求、 事务 和 标识 符 


ZooKeeper 服 务 器 会 在 本 地 处 理 只 读 请 求 (exists ` getDataFll 
getChildren) 。 假 如 一 个 服务 器 接收 到 客户 端的 getData 请 求 ， 服 务 器 
读 取 该 状态 信息 ， 并 将 这 些 信息 返回 给 客户 端 因为 服务 器 会 在 本 地 
处 理 请 求 ， 所 以 ZooKeeper 在 处 理 以 只 读 请 求 为 主要 负载 时 ， 人 性 能 会 很 
高 。 我 们 还 可 以 增加 更 多 的 服务 器 到 ZooKeeper 集 群 中 ， 这 样 就 可 以 处 
理 更 多 的 读 请 求 ， 大 幅 提 高 整体 处 理 能 


那些 会 改变 ZooKeeper 状 态 的 客户 端 请 求 (create、delete 和 
setData) 将 会 被 转发 给 群 首 ， 群 目 执 行 相应 的 请 求 ， 并 形成 状态 的 更 
新 ， 我 们 称 为 事务 (transaction) 。 其 中 ， 请 求 表示 源 自 于 客户 端 发 起 
的 操作 ， 而 事务 则 包含 了 对 应 请 求 处 理 而 改变 ZooKeeper 状 态 所 需要 执 
行 的 步 又。 我 们 通过 一 个 简单 点 的 例 于 ， 而 不 是 ZooKeeper 的 操作 ,来 
说 明 这 个 问题 。 假 如 ， 损 作为 inc (i) ， 该 方法 对 变量 的 值 进行 增 量 
操作 ， 如 果 此 时 一 个 请 求 为 inc (i) ， 假 如 i 的 值 为 10， 该 操作 执行 
后 ， 其 值 为 11。 再 回 过 头 看 请 求 和 事务 的 概念 ， 其 中 inc (i) 为 请 求 ， 
而 事务 则 为 变量 i 和 11 (变量 保存 了 11 这 个 值 ) 。 


现在 我 们 再 来 看 看 ZooKeeper 的 例子 ， 假 如 一 个 客户 端 提交 了 一 个 


对 /z 闻 点 的 setData 请 求 ，setData 将 会 改变 该 znode 闻 点 数据 信息 ， 并 会 


增加 该 节点 的 版 本 号 ， 因 此 ， 对 于 这 个 请 求 的 事务 包括 了 两 个 重要 字 
段 : 市 点 中 新 的 数据 字段 值 和 该 节操 新 的 版 本 号 。 当 处 理 该 事务 时 ， 

服务 端 将 会 用 事务 中 的 数据 信息 来 蔡 换 /z 和 点 中 原来 的 数据 信息 ， 并 
会 用 事务 中 的 版 本 号 更 新 该 节 上 后， 而 不 古 增加 版 本 号 的 值 。 


一 个 事务 为 一 个 单位 ， 也 就 症 说 所 有 的 变更 处 理 需 要 以 原子 方式 
执行 。 以 setData 的 操作 为 例 ， 变 更 市 点 的 数据 信息 ， 但 并 不 改变 版 本 
号 将 会 导致 错误 的 发 生 ， 因 此 ，ZooKeeper 和 集群 以 事务 方式 运行 ， 并 确 
保 所 有 的 变更 操作 以 原子 方式 被 执行 ， 同 时 不 会 被 其 他 事务 所 干扰 。 
在 ZooKeeper 中 ， 并 不 存在 传统 的 关系 数据 库 中 所 涉及 的 回 滚 机制， 而 
征 确 保 事务 的 每 一 步 操作 都 互 不 干扰 。 在 很 长 的 一 段 时 间 里 ， 
ZooKeeper 所 采用 的 设计 方式 为 ， 在 每 个 服务 器 中 局 动 一 个 单独 的 线程 
来 处 理事 务 ， 通 过 单独 的 线程 来 保障 事务 之 间 的 顺序 执行 互 不 干扰 。 
最 近 ，ZooKeeper 增 加 了 多 线程 的 文 持 ， 以 便 提 高 事务 处 理 的 速度 。 


同时 一 个 事务 还 具有 大 等 性 ， 也 束 是 说 ， 我 们 可 以 对 同一 个 事务 
执行 两 次 ， 我 们 得 到 的 结果 还 是 一 样 的 ， 我 们 甚至 还 可 以 对 多 个 事务 
执行 多 次 ， 同 样 也 会 得 到 一 样 的 结果 ， 前 提 是 我 们 确保 多 个 事务 的 执 
行 顺序 每 次 都 是 一 样 的 。 事 务 的 贿 等 性 可 以 让 我 们 在 进行 恢复 处 理 时 
更 加 人 简单。 


当 群 首 产 生 了 一 个 事务 ， 束 会 为 该 事务 分 配 一 个 标识 符 ， 我 们 称 
之 为 ZooKeeper 会 话 ID (zxid) ， 通 过 Zxid 对 事务 进行 标识 ， 束 可 以 按 


照 群 目 所 指定 的 顺序 在 各 个 服务 器 中 按 序 执行 。 服 务 右 之 间 在 进行 新 
的 群 首选 举 时 也 会 交换 zxid 信 息 ， 这 样 束 可 以 知道 哪个 无 故障 服务 天 
接收 了 更 多 的 事务 ， 并 可 以 同步 他 们 之 间 的 状态 信息 。 


zxid 为 一 个 long 型 (64 位 ) 整数 ， 分 为 两 部 分 ， 时 间 蕉 (epoch) 
部 分 和 计数 器 (counter) 部 分 。 每 个 部 分 为 3 位， 在 我 们 讨论 zab 协 议 
时 ， 我 们 就 会 发 现时 间 惟 (epoch) 和 计数 器 (counter) 的 具体 作用 ， 
我 们 通过 该 协议 来 广播 各 个 服务 器 的 状态 变更 信息 。 


9.2 PFAM 


群 首 为 集群 中 的 服务 器 选择 出 来 的 一 个 服务 釉 ， 并 会 一 直 被 集群 
所 认可 。 设 置 群 首 的 目的 是 为 了 对 客户 端 所 发 起 的 ZooKeeper 状 态 变 更 
请 求 进行 排序 ， 包 括 : create、setData 和 delete 操 作 。 群 首 将 每 一 个 请 求 
转换 为 一 个 事务 ， 如 前 一 广 中 所 介绍 ， 将 这 些 事务 发 送 给 奶 随 者 ， 确 
保 集 群 按照 群 首 确定 的 顺序 接受 并 处 理 这 些 事务 。 


为 了 了 解 管理 权 的 原理 ， 一 个 服务 需 必 须 被 仲裁 的 法 定数 量 的 服 
务 器 所 认可 。 在 第 2 章 中 我 们 已 经 讨论 过 ， 法 定数 量 必须 集群 数量 是 能 
够 交错 在 一 起 ， 以 避免 我 们 所 说 的 脑 裂 问题 (split brain) : 即 两 个 集 
合 的 服务 器 分 别 独立 的 运行 ， 形 成 了 两 个 集群 。 这 种 情况 将 导致 整个 
系统 状态 的 不 一 致 性 ， 最 终 客 户 端 也 将 根据 其 连接 的 服务 融 而 获得 不 
同 的 结 末 ， 在 2.3.3 下 我们 已 经 通过 具体 例子 说 明了 这 一 情况 。 


选举 并 文 持 一 个 群 育 的 集群 服务 万 数量 必须 至 少 存 在 一 个 服务 右 
进程 的 交叉 ， 我 们 使 用 属于 仲裁 (quorum) 来 表示 这 样 一 个 进程 的 子 
集 ， 仲 裁 模 式 要 求 服务 侣 之 间 两 两 相交 。 


一 组 服务 器 达到 仲裁 法 定数 量 是 必需 条 件 ， 如 果 足 够 多 的 服务 器 
永久 性 地 退出 ， 无 法 达到 仲裁 法 定数 量 ，ZooKeeper 也 就 无 法 取得 进 


展 。 即 使 服务 夯 退 出 后 再 次 局 动 也 可 以 ， 但 必须 保证 仲裁 的 法 定数 量 
的 服务 器 最 终 运 行 起 来 。 我 们 移 不 讨论 这 个 问题 ， 而 在 下 一 章 中 再 讨 
论 重 新 配置 集群 ， 重 痢 配 置 可 以 随时 间 而 改变 仲裁 法 定数 量 。 


每 个 服务 器 启动 后 进入 LOOKING 状 态 ， 开 始 选举 一 个 新 的 群 首 或 
查找 已 经 存在 的 群 首 ， 如 果 群 首 已 经 存在 ， 其 他 服务 器 就 会 通知 这 个 
新 启动 的 服务 器 ， 告 知 哪个 服务 器 是 群 首 ， 与 此 同时 ， 新 的 服务 器 会 
与 群 首 建立 连接 ， 以 确保 自己 的 状态 与 群 首 一 致 。 


如 果 集 群 中 所 有 的 服务 器 均 处 于 LOOKING 状 态 ， 这 些 服务 器 之 间 
就 会 进行 通信 来 选举 一 个 群 首 ， 通 过 信息 交换 对 群 首选 举 达 成 共识 的 
选择 。 在 本 次 选举 过 程 中 胜出 的 服务 器 将 进入 LEADING 状 态 ， 而 集群 
中 其 他 服务 器 将 会 进入 FOLLOWING 状 态 。 


对 于 群 首选 举 的 消息 ， 我 们 称 之 为 群 首 选举 通知 消息 (leader 
election notifications) ， 或 简单 地 称 为 通知 (notifications) 。 该 协议 非 
常 简单 ， 当 一 个 服务 器 进入 LOOKING 状 态 ， 就 会 发 送 向 集群 中 每 个 服 
务 器 发 送 一 个 通知 消息 ， 该 消息 中 包括 该 服务 器 的 投票 (vote) 信息 ， 
投票 中 包含 服务 器 标识 符 (sid) 和 最 近 执 行 的 事务 的 zxid 信 息 ， 比 
如 ， 一 个 服务 器 所 发 送 的 投票 信息 为 (1, 5) ， 表 示 该 服务 器 的 sid 为 
1， 最 近 执 行 的 事务 的 zxid 为 5 (出 于 群 首选 举 的 目的 ，zxid 只 有 一 个 数 
字 ， 而 在 其 他 协议 中 ，zxid 则 有 时 间 惟 epoch 和 计数 器 组 成 ) 。 


当 一 个 服务 器 收 到 一 个 投票 信息 ， 该 服务 器 将 会 根据 以 下 规则 修 
改 自己 的 投票 信息 


1. 将 接收 的 voteId 和 voteZxid 作 为 一 个 标识 符 ， 并 获取 接收 方 当 前 
的 投票 中 的 zxid， 用 myZxid 和 mySid 表 示 接 收 方 服务 器 自己 的 值 。 


2. 如 果 (voteZxid>myZxid) 或 者 (voteZxid=myZxid H. 
voteld>mySid) ， 保 留 当前 的 投票 信息 。 


3. 人 否则 ， 修 改 目 己 的 投票 信息 ， 将 voteZxid 赋 值 给 myZxid， 将 
voteId 赋 值 给 mySid。 


简 而 言 之 ， 只 有 最 新 的 服务 器 将 说 得 选举 ， 因 为 其 拥有 最 近 一 次 
的 zxid。 我 们 稍 后 会 看 到 ， 这 样 做 将 会 简化 群 站 毅 溃 后 重新 仲裁 的 流 
程 。 如 果 多 个 服务 器 拥有 最 新 的 zxid 值 ， 其 中 的 sid 值 最 大 的 将 赢得 选 
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群 首 服务 器 。 注 意 ， 我 们 并 未 保证 追随 者 必然 会 成 功 连接 上 被 选举 的 
群 首 服务 化 ， 比 如 ， 被 选举 的 群 站 也 许 此 时 月 澳 了 “。 一 旦 连接 成 功 ， 
追随 者 和 群 目 之 间 将 会 进行 状态 同步 ， 在 同步 完成 后 ， 人 退 随 着 才 可 以 
处 理 新 的 请 求 。 


注意 : 查找 群 首 


在 ZooKeeper 中 对 应 的 实现 选举 的 Java 类 为 QuorumPeer， 其 中 的 run 
方法 实现 了 服务 器 的 主要 工作 循环 。 当 进入 LOOKING 状 态 ， 将 会 执行 
lookForLeader 方 法 来 进行 群 首 的 选举 ， 该 方法 主要 执行 我 们 刚刚 所 讨 
论 的 协议 ， 该 方法 返回 前 ， 在 该 方法 中 会 将 服务 器 状态 设置 为 
LEADING 状 态 或 FOLLOWING 状 态 ， 当 然 还 可 能 为 OBSERVING 状 
态 ， 我 们 稍 后 讨论 这 个 状态 。 如 有 果 服 务 器 成 为 群 首 ， 就 会 创建 一 个 
Leader 对 象 并 运行 这 个 对 象 ， 如 果 服 务 器 为 追随 者 ， 就 会 创建 一 个 
Follower 对 象 并 运行 。 


现在 ， 让 我 们 通过 例子 来 重光 这 个 协议 的 执行 过 程 。 网 9-1 展 示 了 
三 个 服务 右 ， 这 三 个 服务 句 分 别 以 不 同 的 初始 投票 值 开 始 ， 其 投票 值 
取决 于 该 服务 器 的 标识 符 和 其 最 新 的 zxid。 每 个 服务 器 会 收 到 男 外 两 个 
服务 器 发 送 的 投票 信息 ， 在 第 一 轮 之 后 ， 服 务 絮 s2 和 服务 器 s3 将 会 改变 
其 投票 值 为 (1，6) ， 之 后 服务 器 服务 器 s2 和 服务 器 s3 在 改变 投票 值 之 
后 会 发 送 新 的 通知 消息 ， 在 接收 到 这 些 新 的 通知 消息 后 ， 每 个 服务 右 
收 到 的 仲裁 数量 的 通知 消 恩 拥有 一 样 的 投票 值 ， 最 后 选举 出 服务 右 s1 
HEH ° 


©@) Received votes Change vote 
(1,6) and (2,5) to (1,6) Elect 1 


(> Received votes Change vote Ss 


(1,6) and (3,5) to (1,6) AAA 


Server s, 
(3,5) 


Servers, 
25 
(25) Received votes Don't change 


Servers, (2,5) and (3,5) vote Elect 1 


(16) ©) ©) Time 
G) 服务 器 $1 的 投票 值 为 (1,6) ， 服 务 器 $ 的 投票 值 为 (25) ， 服 务 器 5: 的 
REAA (35) 。 
服务 器 $, 和 服务 器 $; 将 会 改变 其 投票 (Vote) 值 为 (1,6) 并 发 送 新 的 通知 消息 。 
所 有 服务 器 从 仲裁 处 收 到 一 样 的 投票 (vote) A, MRSS HHA. 


图 9-1: 群 自 选举 过 程 的 示例 


并 不 是 所 有 执行 过 程 都 如 图 9-1 中 所 示 ， 在 图 9-2 中 ， 我 们 展示 了 男 
一 种 情况 的 例子 。 服 务 器 ss 做 出 了 错误 判断 ， 选 举 了 另 一 个 服务 右 s3 
而 不 是 服务 器 s; ， 虽 然 s; 的 zxid 值 更 高 ， 但 在 从 服务 器 si ARB ats, 传 
送 消息 时 发 生 了 了 网络 故障 导致 长 时 间 延 民 ， 与 此 同时 ， 服 务 硕 s, 选择 
TRA FARE, HA, ARAass, 和 服务 器 ss 组 成 了 仲裁 数量 

(quorum) ， 并 将 忽略 服务 器 sy ° 


Server s, 


(3,5) 
Server s, 
(2,5) 
Server s, Ba 
(16) Time 
©) 服务 器 5 接收 到 (35) 的 投票 值 并 改变 了 自己 的 投票 值 ， 根 据 仲 裁 规 则 ， 选 择 


了 服务 器 5:。 
@) 服务 器 5 接收 到 (16) 的 投票 值 ， 但 过 了 -一段 时 间 之 后 才 发 送 新 的 通知 消息 。 
OQ 服务 器 9%, 基 于 服务 器 $ 所 发 送 的 投票 值 ， 最 终 选择 自己 作为 群 首 。 
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误 ， 因 为 服务 器 ss 并 不 会 以 群 首 角色 响应 服务 器 s> 的 请 求 ， 最 终 服务 
BES) 将 会 在 等 待 被 选择 的 群 首 ss 的 响应 时 而 超时 ， 并 开始 再 次 重 试 。 
EKZ, BRETAR HN, AAs 无 法 处 理 任何 客户 端的 请 
求 ， 这 样 做 并 不 可 取 。 


从 这 个 例子 ， 我 们 发 现 ， 如 果 让 服务 器 s, 在 进行 群 首选 举 时 多 等 
待 一 会 ， 它 就 能 做 出 正确 的 判断 。 我 们 通过 图 9-3 展 示 这 种 情况 ， 我 们 
很 难 确定 服务 器 需要 等 待 多 长 时 间 ， 在 现在 的 实现 中 ， 默 认 的 群 首选 
举 的 实现 类 为 FastLeaderElection， 其 中 使 用 固定 值 200ms (常量 
finalizeWait) ， 这 个 值 比 在 当今 数据 中 心 所 预计 的 长 消息 延迟 (不 到 1 
PS LSTA) 要 长 得 多 ， 但 与 恢复 时 间 相 比 还 不 够 长 。 万 一 
此 类 延迟 〈 或 任何 其 他 延迟 ) 时 间 并 不 是 很 长 ， 一 个 或 多 个 服务 器 最 


终 将 错误 选举 一 个 群 首 ， 从 而 导致 该 群 首 没有 足够 的 追随 者 ， 那 么 服 
务 吉 将 不 得 不 再 次 进行 群 首 选举 。 错 误 地 选举 一 个 群 惠 可 能 会 导致 整 
个 恢复 时 间 更 长 ， 因 为 服务 希 将 会 进行 连接 以 及 不 必要 的 同步 操作 ， 

看 要 发 送 更 多 消息 来 进行 妇 一 轮 的 群 首选 


+ 
ali 


注意 : 快速 群 首选 举 的 快速 指 的 是 什么 ? 


如 采 你 想 知道 为 什么 我 们 称 当前 默认 的 群 首选 举 算 法 为 快速 算 
法 ， 这 个 问题 有 历史 原因 。 最 初 的 群 首选 举 算法 的 实现 采用 基于 拉 取 
式 的 模型 ， 一 个 服务 器 拉 取 投票 值 的 间隔 大 概 为 1 秒 ， 该 方法 增加 了 恢 
复 的 延迟 时 间 ， 相 比较 现在 的 实现 方式 ， 我 们 可 以 更 加 快速 地 进行 群 
Ea © 


© Elect s, 


Server s, 


Elects, 
Server s, 


(leader) 


Elect s, 
Server s, 


服务 器 5 从 服务 器 5 接收 到 更 高 的 投票 值 ， 结 合 自己 的 投票 值 。 me 
形成 了 多 数 原 则 的 结果 。 

服务 器 从 服务 器 $1 接收 到 更 高 的 投票 值 ， 结 合 自己 的 投票 值 ， 
形成 了 多 数 原 则 的 结果 。 

服务 六 9 延迟 选举 服务 9;， 这 样 就 有 机 会 等 待 服务 B51 的 投票 值 

并 可 以 与 其 他 服务 器 一 同 选择 服务 器 51.。 


图 9-3: 群 首选 举 时 的 长 延迟 


如 果 想 实现 一 个 新 的 群 首选 举 的 算法 ， 我 们 需要 实现 一 个 quorum 
包 中 的 Election 接 口 。 为 了 可 以 让 用 户 自己 选择 群 首选 举 的 实现 ， 代 码 
中 使 用 了 简单 的 整数 标识 符 (请 查看 代码 中 
QuorumPeer.createElectionAlgorithm () ) ， 另 外 两 种 可 选 的 实现 方式 


为 LeaderElection 类 和 AuthFastLeaderElection 类 ， 但 在 版 本 3.4.0 中 ， 这 些 
类 已 经 标记 为 弃 用 状态 ， 因此， 在 未 来 的 发 布 版 本 中 ， 你 可 能 不 会 再 
看 到 这 些 类 。 


9.3 Zab: 状态 更 新 的 三 播 协议 


在 接收 到 一 个 写 请 求 操 作 后 ， 退 随 痢 会 将 请 求 转 发 给 群 首 ， 群 昕 
将 探索 性 地 执行 该 请 求 ， 并 将 执行 结果 以 事务 的 方式 对 状态 更 新 进行 
广播 。 一 个 事务 中 包含 服 务 器 需要 执行 变更 的 确切 操作 ， 当 事务 提交 
时 ， 服 务 紫 束 会 将 这 些 变 更 反馈 到 数据 树 上 ， 其 中 数据 树 为 ZooKeeper 
用 于 保存 状态 信息 的 数据 结构 (请 参考 DataTree 类 ) 。 


之 后 我 们 需要 面 对 的 问题 便 是 服务 器 如 何 确认 一 个 事务 是 否 已 经 
提交 ， 由 此 引入 了 我 们 所 采用 的 协议 : Zab: ZooKeeper 原 子 广播 协议 
(ZooKeeper Atomic Broadcast protocol) 。 假 设 现在 我 们 有 一 个 活动 的 
群 玫 服务器， 并 拥有 仲裁 数量 的 追随 者 文 持 该 群 百 的 管理 权 ， 通 过 该 
协议 提交 一 个 事务 非常 简单 ， 类 似 于 一 个 两 阶段 提交 。 


1. 群 首 向 所 有 追随 者 发 送 一 个 PROPOSAL 消 息 p。 


2. 当 一 个 追随 者 接收 到 消息 p 后 ， 会 啊 应 群 首 一 个 ACK 消 且 ， 通 知 
群 首 其 已 接受 该 提案 (proposal) 。 


3. 当 收 到 仲裁 数量 的 服务 器 发 送 的 确认 消息 后 该 仲裁 数 包括 群 首 
AC) ， 群 首 就 会 发 送 消息 通知 追随 者 进行 提交 (COMMIT) 操作 。 


图 9-4 说 明了 这 一 个 过 程 的 具体 步骤 顺序 ， 我 们 假设 群 首 通过 隐 式 
方式 给 目 己 发 送 消 轧 。 


Propose Accept Commit 


ee (11) (11) (1) 


Server s, 

(leader) 

Server s; ee a, 
Time 

@ 群 首发 送 提案 消息 。 

Q 追随 者 对 提案 消息 进行 应 答 。 

Q) 群 首 提交 该 提案 。 


图 9-4: fercheRl E ALIA Atel 


在 应 答 提 案 消 轧 之 前 ， 追 随 者 还 需要 执行 一 些 检查 操作 。 追 随 者 
将 会 检查 所 发 送 的 提案 消 轧 是 否 属于 其 所 退 随 的 群 育 ， 并 确认 群 首 所 
广播 的 提案 消息 和 提交 事务 消失 的 顺序 正确 。 


Zab 你 障 了 以 下 几 个 重要 属性 : 


.如 果 群 首 按 顺 序 广播 了 事务 T 和 事务 T， 那 么 每 个 服务 器 在 提交 
T? 事务 前 保证 事务 T 已 经 提交 完成 。 


如果 某 个 服务 器 按照 事务 T、 事 务 T 的 顺序 提交 事务 ， 所 有 其 他 服 


务 器 也 必然 会 在 所 交 事 务 T 前 提交 事务 T。 


第 一 个 属性 保证 事务 在 服务 器 之 间 的 传送 顺序 的 一 致 ， 而 第 二 个 
竖 癌 地 保证 服务 痊 不 会 跳 过 任何 事务 。 假 设 事务 为 状态 变更 操作 ， 
个 状态 变更 操作 又 依赖 前 一 个 状态 变更 操作 的 结 来 ， 如 末 跳 过 事务 整 
会 导致 结果 的 不 一 致 性 ， 而 两 阶段 提交 保证 了 事务 的 顺序 。Zab 在 仲裁 
数量 服务 器 中 记录 了 事务 ， 集 群 中 仲裁 数量 的 服务 器 需要 在 群 首 提 交 
事务 前 对 事务 达成 一 致 ， 而 且 追 随 考 也 会 在 硬 弄 中 记录 事务 的 确认 信 
E 


我 们 在 9.6 太 将 会 看 到， 事务 在 某 些 服务 如 上 可 能 会 终结 ， 而 其 他 
服务 器 上 却 不 会 ， 因 为 在 写 入 事务 到 存储 中 时 ， 服 务 絮 也 可 能 发 生 朋 
吝 。 无 论 何 时 ， 只 要 仲裁 条 件 达成 并 选举 了 一 个 新 的 群 首 ，ZooKeeper 
都 可 以 将 所 有 服务 器 的 状态 更 新 到 最 新 。 


但 是，ZooKeeper 目 始 至 终 并 不 总 是 有 一 个 活动 的 群 首 ， 因 为 群 首 
及 务 器 也 可 能 有 骨 演 ， 或 短 时 间 地 失去 连接 ， 此 时 ， 其 他 服务 器 需要 先 
举 一 个 新 的 群 首 以 保证 系统 整体 仍然 可 用 。 其 中 时 间 戳 (epoch) 的 概 
念 代表 了 管理 权 随 时 间 的 变化 情况 ， 一 个 时 间 惟 表示 了 菏 个 服务 紫 行 
使 管理 权 的 这 段 时 间 ， 在 一 个 时 间 堆 内 ， 群 首 会 广播 提案 消 妃 ， 并 根 
据 计 数 器 (counter) 识别 每 一 个 消息 。 我 们 知道 zxid 的 第 一 个 元 素 为 时 
间 戳 信息， 因此 每 个 zxid 可 以 很 容易 地 与 事务 被 创建 时 间 稚 相关 联 。 


oy 


时 间 稚 的 值 在 每 次 新 群 首选 举 发 生 的 时 候 便 会 增加 。 同 一 个 服务 
器 成 为 群 首 后 可 能 持 有 不 同 的 时 间 戳 信息 ， 但 从 协议 的 角度 出 发 ， 一 


个 服务 融 行 使 管理 权时 ， 如 采 持 有 不 同 的 时 间 蕉 ， 该 服务 做 融会 被 认 
为 是 不 同 的 群 首 。 如 采 服 务 融 s 成 为 群 首 并 且 持 有 的 时 间 崔 为 4， 而 当 
前 已 经 建立 的 群 首 的 时 间 戳 为 6， 集 群 中 的 追随 者 会 奶 随 时 间 堆 为 6 的 
群 站 s， 处 理 群 首 在 时 间 玲 6 之 后 的 消 轧 。 当 然 ， 奶 随 关 在 恢复 阶段 也 
会 接收 时 间 礁 4 到 时 间 稚 6 之 间 的 提案 消 上 筷 ， 之 后 才 会 开始 处 理 时 间 扒 
为 6 之 后 的 消 恩 ， 而 实际 上 这 些 提 案 消 筷 十 以 时 间 礁 6 的 消 乱 来 发 送 
的 。 


在 仲裁 模式 下 ， 记 录 已 接收 的 提案 请 县 非 营 关键 ， 这 样 可 以 确保 
所 有 的 服务 右 最 终 提 交 了 被 某 个 或 多 个 服务 已 经 提交 完成 的 事务 ， 即 
使 群 首 在 此 时 发 生 了 故障 。 完 美 检 测 群 首 (或 任何 服务 器 ) 是 否 发 生 
故障 是 非常 困难 的 ， 虽然 不 是 不 可 能 ， 但 在 很 多 设置 的 情况 下 ， 都 可 
能 发 生 对 一 个 群 首 是 否 发 生 故 障 的 错误 判断 。 


实现 这 个 广播 协议 所 遇 到 最 多 的 困难 在 于 群 首 并 发 存在 情况 的 出 
现 ， 这 种 情况 并 不 一 定 是 脑 独 场景 。 多 个 并 发 的 群 首 可 能 会 导致 服务 
器 提交 事务 的 顺序 发 生 错 误 ， 或 者 直接 跳 过 了 菏 些 事务 。 为 了 阻止 系 
统 中 同时 出 现 两 个 服务 器 目 认 为 目 己 古 群 的 情况 是 非 第 困难 的 ， 时 
间 问 题 或 消 轧 丢失 都 可 能 导致 这 种 情况 ， 因 此 广播 协议 并 不 能 基于 以 
上 假设 。 为 了 解决 这 个 问题 ，Zab 协 议 提 供 了 以 下 保障 : 


-一 个 被 选举 的 群 首 确保 在 提交 完 所 有 之 前 的 时 间 戳 内 需要 提交 的 
事务 ， 之 后 才 开 始 广播 新 的 事务 。 


-在 任何 时 间 点 ， 都 不 会 出 现 两 个 被 仲裁 文 持 的 群 首 。 


为 了 实现 第 一 个 需求 ， 群 首 并 不 会 马上 处 于 活动 状态 ， 直 到 确保 
仲裁 数量 的 服务 器 认可 这 个 群 目 靳 的 时 间 鹤 值 。 一 个 时 间 礁 的 最 初 状 
仿 必 须 包 仿 所 有 的 之 前 已 经 提交 的 事务 ， 或 者 菜 些 已 经 被 其 他 服务 如 
接受 ， 但 疝 未 提交 完成 的 事务 。 这 一 点 非 营 重要， 在 群 首 进行 时 间 玲 e 
的 任何 新 的 提案 前 ， 必 须 保 证 目 时 间 玲 开始 值 到 时 间 蕉 e 一 1 内 的 所 有 
提案 被 手 区 。 如 采 一 个 提案 消 轧 处 于 时 间 稚 e<e， 在 群 首 处 理 时 间 玲 e 
的 第 一 个 提案 消 轧 前 没有 提 区 之 前 的 这 个 提案 ， 那 么 旧 的 提案 将 永远 


不 会 被 提交 。 


对 于 第 二 个 需求 有 些 坏 手 ， 因 为 我 们 并 不 能 完全 阻止 两 个 群 首 独 
立地 运行 。 假 如 一 个 群 首 ] 管 理 并 广播 事务 ， 在 此 时 ， 仲 裁 数量 的 服务 
器 Q 判 断 群 首 ] 已 经 退出 ， 并 开始 选举 了 一 个 新 的 群 首 !， 我 们 假设 在 仲 
裁 机 构 Q 放 弃 群 首 时 有 一 个 事务 IT 正在 广播 ， 而 且 仲 裁 机 构 Q 的 一 个 严 
格 的 子 集 记录 了 这 个 事务 T， 在 群 首 1 被 选举 完成 后 ， 在 仲裁 机 构 Q 之 外 
服务 器 也 记录 了 这 个 事务 T， 为 事务 T 形 成 一 个 仲裁 数量 ， 在 这 种 情况 
下 ， 事 务 T 在 群 首 l' 被 选举 后 会 进行 提交 。 不 用 担心 这 种 情况 ， 这 并 不 
古 个 bug，Zab 协 议 保证 T 作 为 事务 的 一 部 分 被 群 首 1 提 交 ， 确 你 群 首 1 的 
仲裁 数量 的 支持 着 中 至 少 有 一 个 退 随 阁 确 认 了 该 事务 T， 其 中 的 关键 上 
在 于 群 前 1 和 1 在 同一 时 刻 并 未 获得 足够 的 仲裁 数量 的 支持 者 。 


图 9-5 说 明了 这 一 场景 ， 在 图 中 ， 群 首 ] 为 服务 器 ss ，1 为 服务 器 sa 
， 仲 裁 机 构 由 si Pls, 组 成 ， 事务 T 的 zxid 为 (1，1) 。 在 收 到 第 二 个 确 
认 消 息 之 后 ， 服 务 器 ss 成 功 向 服务 器 s4 发 送 了 提交 消息 来 通知 提交 事 
务 。 其 他 服务 器 因 追 随 服务 器 s; 忽略 了 服务 器 so 的 消息 ， 注 意 服务 器 s; 
所 了 解 的 xzid 为 〈1，1) ， 因 此 它 知道 获得 管理 权 后 的 事务 点 。 
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Q) 选中 % 并 且 $, 和 5 追随 9;。 

O 服务 器 5 接受 来 自 5 的 确认 消息 、 选 中 服务 器 $6; 并且 获得 一 个 
仲裁 支持 (S-S) 后 。 形 成 一 个 响应 仲裁 。 


图 9-5: 和 群 首 发 生 重 县 的 情况 


之 前 我 们 提 到 Zab 保 证 新 群 首 1 不 会 缺失 (1，1) ， 现 在 我 们 来 看 
看 其 中 的 细节 。 在 新 群 首 1 生效 前 ， 它 必须 学 习 旧 的 仲裁 数量 服务 器 之 
前 接受 的 所 有 提议 ， 并 且 保 证 这 些 服 务 此 不 会 继续 接受 来 日 旧 群 肯 的 


提议 。 此 时 ， 如 果 群 首 1 还 能 继续 提交 提议 ， 比 如 (1，1) ， 这 条 提议 
必须 已 经 被 一 个 以 上 的 认可 了 新 群 首 的 仲裁 数量 服务 器 所 接受 。 我 们 
知道 仲裁 数量 必须 在 一 台 以 上 的 服务 右 之 上 有 所 重合 ， 这 样 群 目 1 用 来 
提交 的 仲裁 数量 和 新 群 目 1 使 用 的 仲裁 数量 必定 在 一 台 以 上 的 服务 右上 
是 一 致 的 。 因 此 , 1 将 (1，1) 加 入 自身 的 状态 并 传播 给 其 跟随 者 。 


在 群 目 计 举 时 ， 我 们 选择 zxid 最 大 的 服务 右 作 为 群 自 。 这 使 得 
ZooKeeper 不 需要 将 提议 从 退 随 者 传 到 群 首 ， 而 只 需要 将 状态 从 群 首 传 
播 到 退 随 着 。 假 设 有 一 个 退 随 着 接受 了 一 条 群 首 没有 接受 的 提议 。 群 
首 必须 确保 在 和 其 他 奶 随 者 同步 之 前 已 经 收 到 并 接受 了 这 条 提议 。 但 
征 ， 如 果 我 们 选择 zxid 最 大 的 服务 大 ， 我 们 将 可 以 完 完 全 全 跳 过 这 一 
步 ， 可 以 直接 发 送 更 新 到 追随 者 。 


在 时 间 惟 发 生 转换 时 ，Zookeeper 使 用 两 种 不 同 的 方式 来 更 新 奶 随 
者 来 优化 这 个 过 程 。 如 有 果 追 随 者 清 后 于 群 首 不 多 ， 群 首 只 需要 发 送 缺 
失 的 事务 点 。 因 为 追随 者 按照 严格 的 顺序 接收 事务 点 ， 这 些 缺 失 的 事 
务 点 永远 是 最 近 的 。 这 种 更 狐 在 代码 中 要 称 之 为 DIFF。 如 采 奶 随 关 清 
后 很 人 人 ，ZooKeeper 将 发 送 在 代码 中 被 称 为 SNAP 的 完整 快照 。 因 为 发 
送 完整 的 快照 会 增 大 系统 恢复 的 延 时 ， 发 送 缺失 的 事务 点 是 更 优 的 选 
择 。 可 是 当 奶 随 着 浏 后 太 远 的 情况 下 ， 我 们 只 能 选择 发 送 完整 快照 。 


群 首发 送 给 追随 痢 的 DIFF 对 应 于 已 经 存在 于 事务 日 志 中 的 提议 ， 
而 SNAP 对 应 于 群 首 拥有 的 最 新 有 效 快照 。 我 们 将 稍 后 在 本 章 中 讨论 这 


两 种 保存 在 磁 列 上 的 文件 。 
注意 : 深入 代码 


这 里 我 们 给 出 一 点 代码 指导 。 大 部 分 Zab 的 代码 存在 于 Leader、 
LearnerHandler 和 Follower。Leader 和 LearnerHandler 的 实例 由 群 首 服务 
器 执行 ， 而 Follower 的 实例 由 追随 者 执行 。Leaderlead 和 
Follower.followLeader 是 两 个 重要 的 方法 ， 他 们 在 服务 右 在 QuorumPeer 
中 从 LOOKING 转 换 到 LEADING 或 者 FOLLOWING 时 得 到 调用 。 


如 果 你 对 DIFF 和 SNAP 的 区 别 感 兴趣 ， 可 以 查看 LearnerHandlerrun 
的 代码 ， 其 中 包含 了 使 用 DIFF 时 如 何 决定 发 送 哪 条 提议 ， 以 及 关于 如 
何 持久 化 和 发 送 快照 的 细 有 。 


9.4 观察 者 


至 此 ， 我 们 已 经 介绍 了 群 首 和 追随 者 。 还 有 一 类 我 们 没有 介绍 的 
服务 器 : 观察 者 。 观 察 者 和 追随 者 之 间 有 一 些 共同 点 。 具 体 说 来 ， 他 
们 提交 来 自 群 首 的 提议 。 不 同 于 追随 者 的 古 ， 观 察 者 不 参与 我 们 之 前 
介绍 过 的 选举 过 程 。 他 们 仅仅 学 习 经 由 INFORM 消 息 提 交 的 提议 。 由 
于 群 首 将 状态 变化 发 送 给 追随 者 和 观察 者 ， 这 两 种 服务 絮 也 都 被 称 为 
学 习 者 。 


注意 : 深入 INFORM 消 息 


因为 观察 者 不 参与 决定 提议 接受 与 否 的 投票 ， 群 首 不 需要 发 送 提 
议 到 观察 者 ， 群 首发 送 给 追随 者 的 提交 消息 只 包含 zxid 而 不 包含 提议 
本 身 。 因 此 ， 仅 仅 发 送 提交 消息 给 观察 者 并 不 能 使 其 实施 提议 。 这 是 
我 们 使 用 INFORM 消 息 的 原因 。INFORM 消 息 本 质 上 是 包含 了 正在 被 


提 区 的 提议 信息 的 提交 消 妃 。 


简单 来 说 ， 追 随 者 接受 两 种 消息 而 观察 者 只 接受 一 种 消息 。 追 随 
者 从 一 次 广播 中 获取 提议 的 内 容 ， 并 从 接 下 来 的 一 条 提交 消息 中 获取 
zxid。 相 比 之 下 ， 观 察 者 只 获取 一 条 包含 已 提交 提议 的 内 容 的 
INFORM 消 息 。 


参与 决定 那 条 提议 被 提交 的 投票 的 服务 器 被 称 为 PARTICIPANT 服 
务 器 。 一 个 PARTICIPANT 服 务 需 可 以 是 群 首 也 可 以 是 追随 者 。 而 观察 


者 则 被 称 为 OBSERVER 服 务 器 。 


引入 观察 兰 的 一 个 主要 原因 是 提高 读 请 求 的 可 扩展 性 。 通 过 加 入 
多 个 观察 者 ， 我 们 可 以 在 不 牺牲 写 操作 的 否 吐 率 的 前 提 下 服务 更 多 的 
读 操 作 。 写 操作 的 吞吐 率 取决 于 仲裁 数量 的 大 小 。 如 采 我 们 加 入 更 多 
的 参与 投票 的 服务 器 ， 我 们 将 需要 更 大 的 仲裁 数量 ， 而 这 将 减少 写 操 
作 的 吞吐 率 。 增 加 观察 者 也 不 是 完全 没有 开销 的 。 每 一 个 新 加 入 的 观 
察 者 将 对 应 于 每 一 个 已 提交 事务 点 引入 的 一 条 哲 外 请 轧 。 然 而 ， 这 个 
开销 相对 于 增加 参与 投票 的 服务 器 来 说 小 很 多 。 


采用 观察 者 的 另外 一 个 原因 是 进行 跨 多 个 数据 中 心 的 部 嗜 。 由 于 
数据 中 心 之 间 的 网 络 链接 延 时 ， 将 服务 紫 分 散 于 多 个 数据 中 心 将 明显 
地 降低 系统 的 速度 。3 引 入 观察 者 后 ， 更 新 请 求 能 够 先 以 口 否 吐 率 和 低 
延迟 的 方式 在 一 个 数据 中 心 内 执行 ， 接 下 来 再 传播 到 异地 的 其 他 数据 
中 心得 到 执行 。 值 得 注意 的 是 ， 观 察 者 并 不 能 消除 数据 中 心 之 间 的 网 
络 消 乱 ， 因 为 观察 者 必须 转发 更 狐 请 求 给 群 昨 并 且 处 理 INFORM 消 
思 。 不 同 的 是 ， 当 参与 的 服务 夯 处 于 同一 个 数据 中 心 时 ， 观 察 者 保证 
提交 更 痢 必 需 的 消息 在 数据 中 心 内 部 得 到 交换 。 


9.5 ARS arbre AY 


HS > SEA A IRA EA EMR Bas o BANTER UR eat 
使 用 的 主要 抽象 概念 是 请 求 处 理 器 。 请 求 处 理 器 是 对 处 理 流水 线 上 不 
同 阶段 的 抽象 。 每 一 个 服务 器 实现 了 一 个 请 求 处 理 右 的 序列 。 我 们 可 
以 把 一 个 处 理 器 想象 成 添加 到 请 求 处 理 的 一 个 元 素 。 一 条 请 求 经 过 服 
务 万 流水 线 上 所 有 处 理 右 的 处 理 后 被 称 为 得 到 完全 处 理 。 


注意 : 请 求 处 理 右 


ZooKeeper 代 码 里 有 一 个 叫 RequestProcessor 的 接口 。 这 个 接口 的 主 
要 方法 是 processRequest， 它 接受 一 个 Request 参 数 。 在 一 条 请 求 处 理 需 
的 流水 线 上 ， 对 相 邻 处 理 器 的 请 求 的 处 理 通 党 通过 队列 现实 解 稍 合 。 
当 一 个 处 理 器 有 一 条 请 求 需要 下 一 个 处 理 需 进行 处 理 时 ， 它 将 这 条 请 
求 加 入 队列 。 然 后 ， 它 将 处 于 等 得 状态 直到 下 一 个 处 理 如 处 理 完 此 消 
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9.5.1 ŽIRA ae 


Zookeeper 中 最 简单 的 流水 线 是 独立 服务 器 + (ZeeKeeperServer 
K) 。 图 9-6 描 述 了 此 类 服务 器 的 流水 线 。 它 包含 三 种 请 求 处 理 器 : 


PrepRequestProcessor、SyncRequestProcessor 和 FinalRequestProcessor ° 


PrepRequestProcessor SyncRequestProcessor FinalRequestProcessor 


图 9-6: 一 个 独立 服务 大 的 流水 线 


PrepRequestProcessor 接 受 客 户 端的 请 求 并 执行 这 个 请 求 ， 处 理 结 
有 果 则 是 生成 一 个 事务 。 我 们 知道 事务 是 执行 一 个 操作 的 结果 ， 该 操作 
会 反映 到 ZooKeeper 的 数据 树 上 。 事 务 信 息 将 会 以 头 部 记录 和 事务 记录 
的 方式 添加 到 Request 对 象 中 。 同 时 还 要 注意 ， 只 有 改变 ZooKeeper 状 态 
的 操作 才 会 产生 事务 ， 对 于 读 操作 并 不 会 产生 任何 事务 。 因 此 ， 对 于 
读 请 求 的 Request 对 象 中 ， 事 务 的 成 员 属 性 的 引用 值 则 为 null 。 


下 一 个 请 求 处 理 絮 为 SyncRequestProcessor ° SyncRequestProcessor 
负责 将 事务 持久 化 到 磁盘 上 “。 实 际 上 就 是 将 事务 数据 按 顺序 追加 到 事 
务 日 志 中 ， 并 生成 快照 数据 。 对 于 硬盘 状态 的 更 多 细 市 信息 ， 我 们 将 


在 本 划 下 一 方 进行 讨论 。 


下 一 个 处 理 需 也 是 最 后 一 个 为 FinalRequestProcessor。 如 果 Request 
对 象 包含 事务 数据 ， 该 处 理 器 将 会 接受 对 ZooKeeper 数 据 树 的 修改 ， 否 
则 ， 该 处 理 器 会 从 数据 树 中 读 取 数据 并 返回 给 客户 端 。 


9.5.2 FEARS ae 


当 我 们 切换 到 仲裁 模式 时 ， 服 务 絮 的 流水 线 则 有 一 些 变化 ， 前 先 
我 们 介绍 群 首 的 操作 流水 线 (类 LeaderZooKeeper) ， 如 图 9-7 所 示 。 


CommitRequest- ToBeApplied- 
Processor RequestProcessor 
SyncRequest- AckRequest- 
Processor Processor 


FinalRequest- 
Processor 


PrepRequest- ProposalRequest- 
Processor Processor 


图 9-7: 群 自 服务 紫 的 流水 线 


第 一 个 处 理 器 同样 是 PrepRequestProcessor， 而 之 后 的 处 理 器 则 为 
ProposalRequestProcessor。 该 处 理 需 会 准备 一 个 提议 ， 并 将 该 提议 发 送 
给 跟随 者 。ProposalRequestProcessor 将 会 把 所 有 请 求 都 转发 给 
CommitRequestProcessor， 而 且 ， 对 于 写 操作 请 求 ， 还 会 将 请 求 转发 给 
SyncRequestProcessor 处 理 器 。 


SyncRequestProcessor 处 理 器 所 执行 的 操作 与 独立 服务 器 中 的 一 
样 ， 即 持久 化 事务 到 人 役 盘 上 。 执 行 完 之 后 会 触发 AckRequestProcessor 处 
理 贸 ， 这 个 处 理 咒 是 一 个 简单 请 求 处 理 器 ， 它 仅仅 生成 确认 消息 并 返 
回 给 自己 。 我 们 之 前 曾 提 到 过 ， 在 仲裁 模式 下 ， 群 首 需 要 收 到 每 个 服 
务 絮 的 确认 消息 ， 也 包括 群 首 自己 ， 而 AckRequestProcessor 处 理 絮 就 负 


its © 
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b4 


在 ProposalRequestProcessor 处 理 希 之 后 的 处 理 怖 为 
CommitRequestProcessor。CommitRequestProcessor 会 将 收 到 足够 多 的 确 
WAY JAA EDU THES e SCPE, WAVE Ie HA Leadere Ah] 

(Leader.processAck () 方法 ) ， 这 个 方法 会 将 提交 的 请 求 加 入 到 
CommitRequestProcessor 类 中 的 一 个 队列 中 。 这 个 队列 会 由 请 求 处 理 妖 
线程 进行 处 理 。 


下 一 个 处 理 器 也 是 最 后 一 个 为 FinalRequestProcessor 处 理 器 ， 它 的 
作用 与 独立 服务 器 一 样 。FinalRequestProcessor 处 理 更 新 类 型 的 请 求 ， 
并 执行 读 取 请 求 。 在 FinalRequestProcessor 处 理 器 之 前 还 有 一 个 简单 的 
请 求 处 理 右 ， 这 个 处 理 器 会 从 提议 列表 中 删除 那些 待 接受 的 提议 ， 这 
个 处 理 器 的 名 字 叫 ToBeAppliedRequestProcessor 。 待 接受 请 求 列 表 包 括 
那些 已 经 被 仲裁 法 定 人 数 所 确认 的 请 求 ， 并 等 待 被 执行 。 群 首 使 用 这 
个 列表 与 追随 者 之 间 进 行 同步 ， 并 将 收 到 确认 消息 的 请 求 加 入 到 这 个 
列表 中 。 之 后 ToBeAppliedRequestProcessor 处 理 器 就 会 在 
FinalRequestProcessor 处 理 器 执行 后 删除 这 个 列表 中 的 元 素 。 


注意 ， 只 有 更 新 请 求 才 会 加 入 到 待 接 受 请 求 列表 中 ， 然 后 由 
ToBeAppliedRequest-Processor 处 理 器 从 该 列表 移 除 。 
ToBeAppliedRequestProcessor 处 理 希 并 不 会 对 读 取 请 求 进行 任何 额外 的 
处 理 操 作 ， 而 是 由 FinalRequestProcessor 处 理 句 进行 操作 。 


9.5.3 ”追随 者 和 观察 者 服务 器 


现在 我 们 来 讨论 追随 者 (FollowerRequestProcessor 类 ) ， 图 9-8 展 
示 了 一 个 追随 者 服务 器 中 会 用 到 的 请 求 处 理 器 。 我 们 注意 到 图 中 并 不 
是 一 个 单一 序列 的 处 理 器 ， 而 且 输 入 也 有 不 同形 式 : 客户 端 请 求 、 提 
议 、 提 交 事 务 。 我 们 通过 箭头 来 将 标识 追随 者 处 理 的 不 同 路 径 。 


CommitRequestProcessor 


SyncRequestProcessor SendAckRequestProcessor 


FinalRequestProcessor 


FollowerRequestProcessor 


图 9-8: 退 随 者 服务 右 的 流水 线 


我 们 首先 从 FollowerRequestProcessor 处 理 絮 开始 ， 该 处 理 器 接收 并 
处 理 客户 端 请 求 。FollowerRequestProcessor 处 理 絮 之 后 转发 请 求 给 
CommitRequestProcessor， 同 时 也 会 转发 写 请 求 到 群 自 服务 器 。 
CommitRequestProcessor 会 直接 转发 读 取 请 求 到 FinalRequestProcessor 处 
理 右 ， 而 且 对 于 写 请 求 ，CommitRequestProcessor 在 转发 给 


FinalRequestProcessor 处 理 器 之 前 会 等 待 提交 事务 。 


当 群 首 接 收 到 一 个 新 的 写 请 求 操 作 时 ， 直 接地 或 通过 其 他 追随 者 
服务 占 来 生成 一 个 提议 ， 之 后 转发 到 人 退 随 首 服务 器 。 当 收 到 一 个 所 


议 ， 退 随 者 服务 器 会 发 送 这 个 提议 到 SyncRequestProcessor 处 理 器 ， 
SendRequestProcessor H] ## E KAMNIKA o SPEARS as eae 
够 确认 消 居 来 提交 这 个 提议 时 ， 群 下 就 会 发 类 提交 事务 消息 给 仍 随 者 
(同时 也 会 发 送 INFORM 消 息 给 观察 者 服务 器 ) 。 当 接收 到 提交 事务 
消息 时 ， 妃 随 者 就 通过 CommitRequestProcessor 处 理 句 进行 处 理 。 


为 了 保证 执行 的 顺序 ，CommitRequestProcessor 处 理 器 会 在 收 到 一 
个 写 请 求 处 理 器 时 暂停 后 续 的 请 求 处 理 。 这 就 意味 着 ， 在 一 个 写 请 求 
之 后 接收 到 的 任何 读 取 请 求 都 将 被 阻塞， 直到 读 取 请 求 转 给 
CommitRequestProcessor 处 理 右 。 通 过 等 竺 的 方式 ， 请 求 可 以 被 保证 按 
照 接收 的 顺序 来 被 执行 。 


对 于 观察 者 服务 器 的 请 求 流水 线 (ObserverZooKeeperServer 类 ) 与 
追随 者 服务 器 的 流水 线 非 常 相似 。 但 是 因为 观察 者 服务 器 不 需要 确认 
提议 消息 ， 因 此 观察 者 服务 器 并 不 需要 发 送 确认 消 乱 给 群 首 服务 器 ， 
也 不 用 持久 化 事务 到 硬盘 。 对 于 观察 者 服务 器 是 否 需 要 持久 化 事务 到 
硬盘 ， 以 便 加 速 观察 者 服务 器 的 恢复 速度 ， 这 样 的 讨论 正在 进行 中 ， 
因此 对 于 以 后 的 ZooKeeper 版 本 也 会 会 有 这 一 个 功能 。 


9.6 ”本 地 存储 


我 们 之 前 已 经 提 到 过 事务 日 志和 快照 ，SyncRequestProcessor 处 理 
絮 吏 是 用 于 在 处 理 提议 是 写 入 这 些 日 志和 快照 。 我 们 将 会 在 本 方 详细 


讨论 这 些 。 


9.6.1 日 志和 磁盘 的 使 用 


我 们 之 前 说 过 服务 絮 通 过 事务 日 志 来 持久 化 事务 。 在 接受 一 个 所 
议 时 ， 一 个 服务 器 (追随 者 或 群 首 服务 器 ) 就 会 将 提议 的 事务 持久 化 
到 事物 日 志 中 ， 该 事务 日 志保 存在 服务 占 的 本 地 磁 副 中 ， 而 事务 将 会 
按照 顺序 追加 其 后 。 服 务 器 会 时 不 时 地 滚动 日 志 ， 即 关闭 当前 文件 并 
打开 一 修订 的 文 作 ” 


因为 写 事务 日 志 是 写 请 求 操 作 的 关键 路 径 ， 因 此 ZooKeeper 必 须 有 
效 处 理 写 日 志 问 题 。 一 般 情 况 下 追加 文件 到 磁盘 都 会 有 效 完 成 ， 但 还 
有 一 些 情况 可 以 使 ZooKeeper 运 行 的 更 快 ， 组 提交 和 补 日。 组 提交 

(Group Commits) 是 指 在 一 次 磁 强 写 入 时 退 加 多 个 事务 。 这 将 使 持久 
化 多 个 事物 只 需要 一 次 磁道 寻 址 的 开销 。 


天 于 持久 化 事务 到 磁 一 ， 还 有 一 个 重要 说 明 : 现代 操作 系统 通 向 
会 缓存 脏 页 (Dirty Page) ， 并 将 它们 异步 写 入 磁 一 介质 。 然 而 ， 我 们 


需要 在 继续 之 前 ， 确 保 事 务 已 经 被 持久 化 。 因 此 我 们 需要 冲刷 

(Flush) 事务 到 磁盘 介质 。 冲 刷 在 这 里 就 是 指 我 们 告诉 操作 系统 将 脏 
页 写 入 磁盘 ， 并 在 操作 完成 后 返回 。 因 为 我 们 在 SyncRequestProcessor 
处 理 硕 中 持久 化 事务 ， 所 以 这 个 处 理 右 同时 也 会 负责 冲刷 。 在 

SyncRequestProcessor 处 理 絮 中 当 和 需要 冲刷 事务 到 磁盘 时 ， 事 实 上 我 们 
是 冲 刷 的 是 所 有 队列 中 的 事务 ， 以 实现 组 所 区 的 优化 。 如 有 果 队 列 中 只 
有 一 个 事务 ， 这 个 处 理 占 依然 会 执行 冲刷 。 该 处 理 器 并 不 会 等 每 更 多 
的 事务 进入 队列 ， 因 为 这 样 做 会 增加 执行 操作 的 延 时 。 代 码 参 考 可 以 


查看 SyncRequestProcessorrun () 方法 。 


注意 : He SA 


服务 右 只 有 在 强制 将 事务 写 入 事务 日 志 之 后 才 确 认 对 应 的 提议 。 
更 准确 一 点 ， 服 务 器 调用 ZKDatabase 的 commit 方 法 ， 这 个 方法 最 终 会 
调用 FileChannel.force。 这样， 服务 器 人 证 在 确认 事务 之 前 已 经 将 它 持 
久 化 到 磁 副 中 。 不 过 ， 有 一 个 需要 注意 的 地 方 ， 现 代 的 磁盘 一 般 有 一 
个 缓存 用 于 保存 将 要 写 到 磁盘 的 数据 。 如 采写 缓存 开 司 ，force 调 用 在 
返回 后 并 不 能 保证 数据 已 经 写 入 介质 中 。 实 际 上 ， 它 可 能 还 在 写 绥 存 
中 。 为 了 保证 在 FileChannel.force () 方法 返回 后 ， 写 入 的 数据 已 经 在 
介质 上 ， 人 磁盘 写 绥 存 必须 关闭 。 不 同 的 操作 系统 有 不 同 的 关闭 方式 。 


thA (padding) 是 指 在 文件 中 预 分 配 磁 盘存 储 块 。 这 样 做 ， 对 于 
涉及 存储 块 分 配 的 文件 系统 元 数据 的 更 新 ， 殊 不 会 显 着 影响 文件 的 顺 


序 写 入 操作 。 假 如 需要 高 速 向 日 志 中 追加 事务 ， 而 文件 中 并 没有 原先 
分 配 存储 块 ， 那 么 无 论 何 时 在 写 入 操作 到 达 文 件 的 结尾 ， 文 件 系 统 都 
需要 分 配 一 个 新 存储 块 。 而 通过 补 日 至 少 可 以 减少 两 次 额外 的 位 表 寻 
址 开销 : 一 次 是 更 新 元 数据 ， 男 一 次 是 返回 文件 。 


为 了 避免 受到 系统 中 其 他 写 操 作 的 干扰 ， 我 们 强烈 推荐 你 将 事务 
日 志 写 入 到 一 个 独立 磁盘 ， 将 第 二 块 磁 表 用 于 操作 系统 文件 和 快照 文 
Pe 
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化 整个 数据 树 的 方式 来 提取 快照 ， 并 将 这 个 提取 的 快照 保存 到 文件 
中 。 服 务 器 在 进行 快照 时 不 需要 进行 协作 ， 也 不 需要 暂 集 处 理 请 求 。 
因为 服务 器 在 进行 快照 时 还 会 继续 处 理 请 求 ， 所 以 当 快 照 完 成 时 ， 数 
据 树 可 能 又 发 生 了 变化 ， 我 们 称 这 样 的 快照 是 模糊 的 (fuzzy) ， 因 为 
它们 不 能 反映 出 在 任意 给 点 的 时 间 点 数据 树 的 准确 状态 。 


举 个 例子 说 明 一 下 。 一 个 数据 树 中 只 有 2 个 znode 和 点 : /z 和 /z。 一 
开始 ， 两 个 znode 世 点 的 数据 都 是 1。 现 在 有 以 下 操作 步骤 ; 


1. 开 始 一 个 快照 。 


2. 序 列 化 并 将 /z=1 到 到 快照 。 
3. 使 /z 的 数据 为 2 (事务 T) 。 
4. 使 /z' 的 数据 为 2 (事务 T') ° 
5. 序 列 化 并 将 /z'=2 写 入 到 快照 。 


这 个 快照 包含 了 /z=1 和 /z'=2。 然 而 ， 数 据 树 中 这 两 个 znode 节 点 在 
任意 的 时 间 点 上 都 不 是 这 个 值 。 这 并 不 是 问题 ， 因 为 服务 器 会 重播 
(replay) 事务 。 每 一 个 快照 文件 都 会 以 快照 开始 时 最 后 一 个 被 提交 的 
事务 作为 标记 (tag) ， 我 们 将 这 个 时 间 截 记 为 TS。 如 果 服 务 器 最 后 加 
载 快照 ， 它 会 重播 在 TS 之 后 的 所 有 事务 日 志 中 的 事务 。 在 这 个 例子 
中 ， 它 们 就 是 T 和 T。 在 快照 的 基础 上 重 放 T 和 T' 后 ， 服 务 器 最 终 得 
到 /z=2 和 /z'=2， 即 一 个 合理 的 状态 。 


接 下 来 我 们 还 需要 考虑 一 个 重要 的 问题 ， 驶 是 再 次 执行 事务 T 是 
否 会 有 问题 ， 因 为 这 个 事务 在 开始 快照 开始 之 后 已 经 被 接受 ， 而 结果 
也 被 快照 中 保存 下 来 。 束 像 我 们 之 前 所 说 的 ， 事 务 是 内 等 的 

(idempotent) ， 所 以 即使 我 们 按照 相同 的 顺序 再 次 执行 相同 的 事务 ， 
会 得 到 相同 的 结果 ， 即 便 其 结果 已 经 保存 到 快照 中 。 


为 了 理解 这 个 过 程 ， 假 设 重复 执行 一 个 已 经 被 执行 过 的 事务 。 如 
上 例 中 所 描述 ， 一 个 操作 设置 某 个 znode 节 点 的 数据 为 一 个 特定 的 值 ， 


这 个 值 并 不 依赖 于 任何 其 他 东西 ， 我 们 无 条 件 (unconditionly) 地 设 

置 /z' 的 值 (setData 请 求 中 的 版 本 号 为 一 1) ， 重 新 执行 操作 成 功 ， 但 因 
为 我 们 递增 了 两 次 ， 所 以 最 后 我 们 以 错误 的 版 本 号 结束 。 如 以 下 方式 
就 会 导致 回 题 出 现 ， 假 设 有 如 下 3 个 操作 并 成 功 执行 : 


setData /z', -1 


setData /z', 


2, 
3, 2 
setData /a, 0, -1 


第 一 个 setData 操 作 跟 我 们 之 前 描述 的 一 样 ， 而 后 我 们 又 加 上 了 2 个 
setData 操 作 ， 以 此 来 展示 在 重 放 中 第 二 个 操作 因为 错误 的 版 本 号 而 未 
能 成 功 的 情况 。 假 设 这 3 个 操作 在 提交 时 被 正确 执行 。 此 时 如 果 服 务 右 
加 载 最 新 的 快照 ， 即 该 快照 已 包含 第 一 个 setData 操 作 。 服 务 器 仍然 会 
重 放 第 一 个 setData 操 作 ， 因 为 快照 被 一 个 更 早 的 zxid 所 标记 。 因 为 重 
新 执行 了 第 一 个 setData 操 作 。 而 第 二 个 setData 操 作 的 版 本 号 又 与 期 户 
不 符 ， 那 么 这 个 操作 将 无 法 完成 。 而 第 三 个 setData 操 作 可 以 正常 完 
成 ， 因 为 它 也 是 无 条 件 的 。 


在 加 载 完 快照 并 重 放 日 志 后 ， 此 时 服务 器 的 状态 是 不 正确 的 ， 
为 它 没 有 包括 第 二 个 setData 请 求 。 这 个 操作 违反 了 持久 性 和 正确 性 ， 
以 及 请 求 的 序列 应 该 是 无 缺口 (no gap) 的 属性 。 


这 个 重 放 请 求 的 问题 可 以 通过 把 事务 转换 为 群 首 服务 夯 所 生成 的 
state delta 来 解决 。 当 群 首 服务 做 为 一 个 请 求 产 生 事务 时 ， 作 为 事务 生 


成 的 一 部 分 ， 包 括 了 一 些 在 这 个 请 求 中 znode 广 点 或 它 的 数据 变化 的 值 
(delta 值 ，， 并 指定 一 个 特定 的 版 本 号 。 最 后 重新 执行 一 个 事务 就 不 
会 导致 不 一 致 的 脾 本 号 。 


9.7 Whar ais 


会 话 (Session) 是 Zookeeper 的 一 个 重要 的 抽象 。 保 证 请 求 有 序 、 
临时 znode 节 点 、 监 事 点 都 与 会 话 密 切 相 天 。 因 此 会 话 的 跟 中 机 制 对 
ZooKeeper 来 说 也 非常 重要 。 


ZooKeeper 服 务 器 的 一 个 重要 任务 就 是 跟踪 并 维护 这 些 会 话 。 在 独 
立 模式 下 ， 单 个 服务 器 会 跟踪 所 有 的 会 话 ， 而 在 仲裁 模式 下 则 由 群 首 
服务 器 来 跟踪 和 维护 。 群 首 服务 器 和 独立 模式 的 服务 器 实际 上 运行 相 
同 的 会 话 跟踪 器 (参考 SessionTracker 类 和 SessionTrackerImpl 类 ) ° mj 
追随 者 服务 器 仅仅 是 简单 地 把 客户 端 连接 的 会 话 信息 转发 给 群 首 服务 


器 (#4 LeamerSessionTracker2 ) 


为 了 保证 会 话 的 存活 ， 服 务 器 需要 接收 会 话 的 心跳 信息 。 心 跳 的 
形式 可 以 是 一 个 新 的 请 求 或 者 显 式 的 ping 消 息 (参考 
LearnerHandler.run () ) 。 两 种 情况 下 ， 服 务 器 通过 更 新 会 话 的 过 期 
时 间 来 触发 (touch) 会 话 活路 (4 SessionTrackerlmpl.touchSession 

O DË) 。 在 仲裁 模式 下 ， 群 首 服务 器 发 送 一 个 PING 消 息 给 它 的 追 
随 者 们 ， 妃 随 者 们 返回 自从 最 新 一 次 PING 消 息 之 后 的 一 个 session 列 
表 。 群 首 服务 器 每 半 个 tick (参考 10.1.1 节 的 介绍 ) 就 会 发 送 一 个 ping 


消息 给 追随 者 们 。 所 以 ， 如 有 果 一 个 tick 被 设置 成 2 秒 ， 那 么 群 首 服务 器 
就 会 每 一 秒 发 送 一 个 ping 消 息 。 


对 于 管理 会 话 的 过 期 有 两 个 重要 的 要 点 。 一 个 称 为 过 期 队列 

(expiry queue) 的 数据 结构 (参考 ExpiryQueue 类 ) ， 用 于 维护 会 话 的 
过 期 。 这 个 数据 结构 使 用 bucket 来 维护 会 话 ， 每 一 个 bucket 对 应 一 个 某 
时 间 范 围 内 过 期 的 会 话 ， 群 首 服务 右 每 次 会 让 一 个 bucket 的 会 话 过 
期 。 为 了 确定 哪 一 个 bucket 的 会 话 过 期 ， 如 果 有 的 话 ， 当 下 一 个 压 限 
到 来 时 ， 一 个 线程 会 检查 这 个 expiry queue 来 找 出 要 过 期 的 bucket。 这 
个 线程 在 底 限 时 间 到 来 之 前 处 于 睡眠 状态 ， 当 它 被 唤醒 时 ， 它 会 取出 
过 期 队列 的 一 批 session， 让 它们 过 期 。 当 然 取 出 的 这 批 数 据 也 可 能 是 


空 的 。 


为 了 维护 这 些 bucket， 群 首 服务 如 把 时 间 分 成 一 些 片段 ， 以 
expirationInterval 为 单位 进行 分 割 ， 并 把 每 个 会 话 分 配 到 它 的 过 期 时 间 
对 应 的 bucket 里 ， 其 功能 就 是 有 效 地 计算 出 一 个 会 话 的 过 期 时 间 ， 以 
器 上 取 正 的 方式 获得 具体 时 间 间 隔 。 更 具体 来 说 ， 就 是 对 下 面 的 表达 
式 进行 计算 ， 当 会 话 的 过 期 时 间 更 新 时 ， 根 据 结果 来 决定 它 属于 哪 一 


个 bucket ° 


(expirationTime / expirationInterval + 1) * expirationInterval 


举例 说 明 ， 比 如 expirationInterval 为 2， 会 话 的 超时 时 间 为 10。 那 
么 这 个 会 话 分 配 到 bucket 为 12 ( (10/2+1) *2 的 结果 ) 。 注 意 当 我 们 触 
发 (touch) 这 个 会 话 时 expirationTime 会 增加 ， 所 以 随后 我 们 需要 根据 
之 后 的 计算 会 话 移动 到 其 他 的 bucket 中 。 


使 用 bucket 的 模式 来 管理 的 一 个 主要 原因 是 为 了 减少 让 会 话 过 期 
这 项 工作 的 系统 开销 。 在 一 个 ZooKeeper 的 部 署 环境 中 ， 可 能 其 客户 端 
就 有 数 千 个 ， 因 此 也 就 有 数 千 个 会 话 。 在 这 种 场景 下 要 细 粒 度 地 检查 
会 话 过 期 是 不 合适 的 。 如 果 expirationInterval 短 的 话 ， 那 么 ZooKeeper 
就 会 以 这 种 细 粒 度 的 方式 完成 检查 。 目 前 expirationInterval 是 一 个 
tick， 通 常 以 秒 为 单位 。 


9.8 ”服务 此 与 监视 所 


监视 点 (2.1.37) 是 由 读 取 操作 所 设置 的 一 次 性 触发 器 ， 
个 监视 点 由 一 个 特定 操作 来 触发 为 了 在 服务 端 管理 监视 点 ， 
ZooKeeper 的 服务 端 实现 了 监视 点 管理 器 (watch manager) 。 一 个 
WatchManager 类 的 实例 负责 管理 当前 已 被 注册 的 监视 点 列表 ， 并 负责 
触发 它们 。 所 有 类 型 的 服务 器 《包括 独立 服务 器 ， 群 首 服务 器 ， 追 随 
MRA ce WE SARA ae) 都 使 用 同样 的 方式 处 理 监 视点 。 


DataTree 类 中 持 有 一 个 监视 点 管理 需 来 负责 子 世 点 监控 和 数据 的 
监控 ， 对 于 这 两 类 监控 ， 请 参考 4.2 节 ， 当 处 理 一 个 设置 监视 点 的 读 请 
求 时 ， 该 类 就 会 把 这 个 监视 点 加 入 manager 的 监视 点 列表 。 类 似 的 ， 当 
处 理 一 个 事务 时 ， 该 类 也 会 查找 是 否 需要 触发 相应 的 监视 点 。 WREE 
现 有 监视 点 需要 触发 ， 该 类 就 会 调用 manager 的 触发 方法 。 添 加 一 个 监 
视点 和 触发 一 个 监视 点 都 会 以 一 个 read 请 求 或 者 FinalRequestProcessor 
类 的 一 个 事务 开始 。 


在 服务 端 触 发 了 一 个 监视 点 ， 最 终 会 传播 到 客户 端 。 负责 处 理 传 
播 的 为 服务 端的 cnxn 对 象 (参见 ServerCnxn 类 ) ， 此 对 象 表示 客户 端 
和 服务 端的 连接 并 实现 了 Watcher 接 口 。Watch.process 方 法 序列 化 了 监 
视点 事件 为 一 定格 式 ， 以 便 用 于 网 络 传送 。ZooKeeper 客 户 端 接 收 序列 


化 的 监视 点 事件 ， 并 将 其 反 序列 化 为 监视 点 事件 的 对 象 ， 并 传递 给 应 
用 程序 。 


监视 点 只 会 保存 在 内 存 ， 而 不 会 持久 化 到 硬盘 。 当 客户 端 与 服务 
端的 连接 断 开 时 ， 它 的 所 有 监视 点 会 从 内 存 中 清除 。 因 为 客户 端 库 也 
会 维护 一 份 监视 点 的 数据 ， 在 重 连 之 后 监视 点 数据 会 再 次 被 同步 到 服 
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在 客户 端 库 中 有 2 个 主要 的 类 : ZooKeeper 和 ClientCnxn ° 
ZooKeeper 类 实现 了 大 部 分 API， 写 客户 端 应 用 程序 时 必须 实例 化 这 个 
类 来 建立 一 个 会 话 。 一 旦 建立 起 一 个 会 话 ，ZooKeeper 束 会 使 用 一 个 会 
话 标识 符 来 关联 这 个 会 话 。 这 个 会 话 标识 符 实 际 上 是 由 服务 端 所 生成 


的 (参考 SessionTrackerImpl 类 ) 


ClientCnxn 类 管理 连接 到 server 的 Socket 连 接 。 该 类 维护 了 一 个 可 
连接 的 ZooKeeper 的 服务 器 列表 ， 并 当 连 接 断 掉 的 时 候 无 颖 地 切换 到 其 
他 的 服务 器 。 当 重 连 到 一 个 其 他 的 服务 器 时 会 使 用 同一 个 会 话 (如 果 
没有 过 期 的 话 ) ， 客 户 端 也 会 重 置 所 有 的 监视 点 到 刚 连 接 的 服务 器 上 

(参考 ClientCnxn.SendThread.primeConnection () ) 。 重 置 默认 是 开 
启 的 ， 可 以 通过 设置 disableAutoWatchReset 来 禁用 。 


9.10 ”序列 化 


对 于 网 络 传输 和 磁盘 保存 的 序列 化 消息 和 事务 ，ZooKeeper 使 用 了 
Hadoop 中 的 Jute 来 做 序列 化 。 如 今 ， 该 库 以 独立 包 的 方式 被 引入 ， 在 
ZooKeeper 代 码 库 中 ，org.apache.jute 就 是 Jute 库 (ZooKeeper 的 开发 团 
队 早 怠 讨论 过 要 替换 Jude， 但 至 今 没 找到 合适 的 方案 ， 它 工作 得 很 
好 ， 还 没有 必要 替换 它 ) 


对 于 Jute 最 主要 的 定义 文件 为 zookeeperjute。 它 包含 了 所 有 的 消息 
定义 和 文件 记录 。 下 面 是 一 个 Jute 定 义 的 例子 : 


module org.apache.zookeeper.txn { 


class CreateTxn { 
ustring path; 
buffer data; 
vector<org.apache.zookeeper.data.ACL> acl; 
boolean ephemeral; 
int parentCVersion; 


这 个 例子 定义 模块 ， 该 模块 包括 一 个 create 事 务 的 定义 。 同 时 。 这 
个 模块 映射 到 了 一 个 ZooKeeper 的 包 中 。 


9.11 ”小结 
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键 因 素 ， 没 有 这 个 机 制 ，ZooKeeper 套 件 将 无 法 保持 可 靠 性 。 拥 有 和 群 首 
征 必 要 但 非 充 分 条 件 ，ZooKeeper 还 需要 Zab 协 议 来 传播 状态 的 更 新 
等 ， 即 使 某 些 服务 絮 可 能 发 生 朋 演 ， 也 能 保证 状态 的 一 致 性 。 


我 们 又 回顾 了 多 种 服务 器 类 型 :独立 服务 器 、 群 目 服 务 右 、 退 随 
者 服务 絮 和 观察 者 服务 器 。 这 些 服务 右 之 间 因 运转 的 机 制 及 执行 的 协 
议 的 不 同 而 不 同 。 在 不 同 的 部 署 场 景 中 ， 各 个 服务 器 可 以 发 挥 不 同 的 
作用 ， 比 如 增加 观察 者 服务 器 可 以 提供 更 高 的 读 吞 吐 量 ， 而 且 还 不 会 
影响 写 吞 吐 量 。 不 过 ， 增 加 观察 者 服务 磊 并 不 会 增加 整个 系统 的 高 可 
HIES 


在 ZooKeeper 内 部 ， 我 们 实现 了 一 系列 机 制 和 数据 结构 。 我 们 在 本 
章 中 专注 于 会 话 与 监视 点 的 实现 ， 这 个 也 是 在 实现 ZooKeeper 订 用 时 所 
涉及 的 重要 概念 。 


虽然 我 们 在 本 章 中 提供 了 代码 的 相关 线索 ， 但 我 们 并 没有 提供 源 
代码 的 详尽 视图 。 我 们 强烈 建议 读者 目 行 下 载 一 份 源 代码 ， 以 本 章 所 
提供 的 线索 为 开端 ， 独 立 分 析 和 思考 。 


第 10 章 “运行 ZooKeeper 


ZooKeeper 的 设计 不 仅 为 开发 人 员 提 供 了 很 好 的 构建 模块 ， 也 为 运 
维 人 员 以 提供 了 很 多 方便 。 分 布 式 系 统 越 来 庞大 ， 管 理 运 维 越 来 越 困 
难 ， 更 加 健壮 的 运 维 实践 越 来 越 重 要 。 我 们 期 望 Zookeeper 作 为 一 个 标 
准 的 分 布 式 系统 组 件 ， 可 以 让 运 维 团队 更 方便 地 学 习 和 管理 。 我 们 在 
之 前 的 章节 中 已 经 看 到 启动 ZooKeeper 非 常 简单 ， 但 是 在 运行 
ZooKeeper 服 务 时 还 有 很 多 选项 需要 注意 。 本 章 的 主要 介绍 运行 


ZooKeeper 时 可 用 的 管理 工具 和 方法 。 


为 了 保证 Zookeeper 服 务 的 功能 正常 ， 必 须 保证 配置 正确 。 
ZooKeeper 作 为 分 布 式 计算 的 基础 建立 在 需要 条 件 处 理 的 情况 下 ， 所 有 
的 Zookeeper 投 票 服务 器 必须 拥有 相同 的 配置 ， 在 我 们 的 经 验 中 ， 配 置 

普 认 或 不 一 怪 是 运营 过 程 中 最 主要 的 问题 。 


我 们 先 看 一 个 使 用 ZooKeeper 早 期 出 现 的 一 个 问题 的 简单 例子 ,一 
个 团队 的 早期 人 员 通 过 ZooKeeper 编 写 了 他 们 的 应 用 ， 经 过 完全 测试 
后 ， 部 署 到 生产 环境 中 ， 在 早期 ZooKeeper 很 容易 使 用 和 部 署 ， 所 以 这 
个 团队 在 生产 环境 部 署 了 他 们 的 ZooKeeper 服 务 和 应 用 程序 ， 但 并 未 告 
知 运 维 人 员 。 


不 久之 后 ， 随 着 生产 流量 开始 进入 ， 问 题 也 开始 显现 出 来 。 我 们 
接连 收 到 运营 团队 的 电话 ， 告 知 系统 出 现 了 问题 ， 运 维 人 员 不 断 地 质 
问 我 们 这 个 系统 方案 在 部 署 到 生产 环境 前 是否 经 过 完全 测试 ， 我 们 也 
在 不 断 地 重复 回答 他 ， 已 经 完成 了 完全 测试 。 在 经 过 各 种 场景 的 拼凑 
整理 ， 运 维 人 人员 意识 到 所 遇 到 的 问题 应 该 是 脑 神 问题 ， 最 后 ， 我 们 要 
求 他 发 送 一 下 他 们 的 配置 文件 ， 当 我 们 看 到 这 个 配置 文件 ， 我 们 很 清 
楚 问 题 出 在 哪里 :我 们 使 用 了 独立 模式 的 ZooKeeper 进 行 测试 ， 但 在 部 
鸭 到 生产 环境 时 ， 为 了 可 以 容 妨 某 个 服务 器 的 故障 部 闭 了 三 个 服务 
如 。 壮 憾 的 是 ， 运 维 人 员 起 记 修 改 配置 文件 ， 因 此 他 们 将 整个 应 用 苇 
于 三 个 独立 模式 的 服务 器 之 中 。 


客户 闻 将 这 三 个 服务 器 当成 集群 中 的 一 个 部 分 ， 但 服务 器 之 间 却 
独立 运行 厦 ， 因 此 三 组 不 同 的 客 尸 问 在 系统 中 看 到 了 三 个 不 同 且 冲突 
的 视图 ， 表 面 看 起 来 似乎 工作 正常 ， 但 在 后 台 却 一 片 混乱 。 


通过 这 个 例子 来 说 明 ZooKeeper 的 配置 是 很 重要 的 事情 ， 你 需要 了 
解 一 些 基 本 概念 ， 其 实 这 些 并 不 难 或 复杂 ， 关 键 是 知道 选项 开关 的 位 
置 和 有 具体 含义 ， 本 章 中 了 束 会 介绍 这 些 配 置 选项 的 含义 。 


10.1 配置 ZooKeeper 服 务 句 


在 这 一 站 ， 我 们 将 会 看 到 那些 负责 ZooKeeper 服 务 屡 运转 的 选项 ， 

之 前 我 们 已 经 看 到 了 部 分 选项 ， 但 其 实 还 有 很 多 选项 没有 介绍 过 ， 这 
些 选 项 均 有 默认 值 ， 符 合 最 常见 情况 下 运转 ， 但 这 些 先 项 常常 需要 修 
改 。ZooKeeper 的 设计 在 于 方便 使 用 和 运 维 ， 我 们 的 设计 是 成 功 的 ， 又 
使 人 们 还 不 太 明 日 自己 的 配置 束 可 以 动手 并 运行 起 来 。 人 们 很 容易 使 
用 最 简 配 置 开 始 运 行 ZooKeeper， 但 如 果 你 多 花 一 些 时 间 学 习 一 下 不 同 
的 配置 选项 ， 你 会 发 现 你 还 可 以 获得 更 高 的 性 能 ， 而 且 更 容易 诊断 问 
题 所 在 。 


在 本 万 中 我 们 将 介绍 每 一 个 配置 选项 参数 ， 以 及 这 些 参 数 的 具体 
含义 ， 并 且 介 绍 为 什么 你 需要 使 用 这 个 参数 。 本 节 内 容 也 许 会 让 你 觉 
得 很 枯燥 ， 如 有 果 你 想 看 一 些 更 有 趣 的 知识 ， 可 以 先 跳 到 下 一 节 中 。 如 
果 跳 过 本 方 ， 最 好 回头 在 某 种 程度 上 沉 下 心 看 一 看 ， 熟 悉 一 下 不 同 的 
选项 舍 义 ， 这 些 选 项 参数 会 对 你 的 ZooKeeper 服 务 在 稳定 性 和 性 能 上 形 
成 巨大 差异 。 


ZooKeeper 服 务 器 在 启动 时 从 一 个 名 为 zoo.cfg 的 配置 文件 读 取 所 有 
选项 ， 多 个 服务 器 如 果 角 色相 似 ， 同 时 基本 配置 信息 一 样 ， 就 可 以 共 
享 一 个 文件 。data 目 录 下 的 myid 文 件 用 于 区 分 各 个 服务 器 ， 对 每 个 服 


务 器 来 说 ，data 目 录 必 须 是 唯一 的 ， 因 此 这 个 目录 可 以 更 加 方便 地 保 
存 一 些 差 异化 文件 。 服 务 句 有 DD 将 myid 文 件 作为 一 个 索引 引入 到 配置 文 
件 中 ， 一 个 特定 的 ZooKeeper 服 务 器 可 以 知道 如 何 配 置 自己 参数 。 当 
然 ， 如 果 服 务 右 具有 不 同 的 配置 参数 〈 例 如 ， 事 务 日 志保 存在 不 同 的 
地 方 ) ， 每 个 服务 器 就 需要 使 用 自己 唯一 的 配置 文件 。 


配置 参数 闻 第 通过 配置 文件 的 方式 进行 设置 ， 本 世 后 续 部 分 ， 通 
过 列表 方式 列 出 了 这 些 参数 。 很 多 参数 也 可 以 通过 Java 的 系统 属性 传 
递 ， 其 形式 通常 为 zookeeperpropertyName， 在 启动 服务 器 时 ， 通 过 -D 
选项 设置 这 些 属 性 。 不 过 ， 系 统 属性 所 对 应 的 一 个 特定 参数 对 服务 来 
说 是 插入 的 配置 ， 配 置 文 件 中 的 配置 参数 优先 于 系统 属性 中 的 配置 。 


10.1.1 基本 配置 


某 些 配置 参数 并 没有 默认 值 ， 所 以 每 个 部 署 应 用 中 必须 配置 : 

clientPort 

客户 端 所 连接 的 服务 器 所 监听 的 TCP 端 口 ， 默 认 情 况 下 ， 服 务 端 
会 监听 在 所 有 的 网 络 连 接 接口 的 这 个 端口 上 ， 除 非 设置 了 


clientPortAddress 参 数 。 客 户 端 端口 可 以 设置 为 任何 值 ， 不 同 的 服务 天 
也 可 以 监听 在 不 同 的 端口 上 。 默 认 端 口号 为 2181。 


dataDir 和 dataLogDir 


dataDir 用 于 配置 内 存 数据 库 保 存 的 模糊 快照 的 目录 ， 如 末 某 个 服 
务 右 为 集群 中 的 一 台 ，id 文 件 也 保存 在 该 目录 下 。 


dataDir 并 不 需要 配置 到 一 个 专用 存储 设备 上 ， 快 照 将 会 以 后 台 线 
程 的 方式 写 入 ， 且 并 不 会 锁定 数据 库 ， 而 且 快 照 的 写 入 方式 并 不 是 同 
步 方 式 ， 直 到 写 完整 快照 为 止 。 


事务 日 志 对 该 目录 所 处 的 存储 设备 上 的 其 他 活动 更 加 敏感 ， 服 务 
端 会 笑 试 进行 顺序 写 入 事务 日 志 ， 以 为 服务 端 在 确认 一 个 事务 前 必须 
将 数据 同步 到 存储 中 ， 该 设备 的 其 他 活动 (尤其 是 快照 的 写 入 ) 可 能 
导致 同步 时 磁盘 过 于 忙 入 ， 从 而 影响 写 入 的 吞吐 能 力 。 因 此 ， 最 佳 实 
践 是 使 用 专用 的 日 志 存 储 设备 ， 将 dataLogDir 的 目录 配置 指 疝 该 设 
Ao 


tickTime 


tick 的 时 长 单位 为 毫秒 ，tick 为 ZooKeeper 使 用 的 基本 的 时 间 度 量 单 
位 ， 在 9.7 市 已 经 介绍 过 ， 该 值 还 决定 了 会 话 超时 的 存储 器 大 小 。 


Zookeeper 集 群 中 使 用 的 超时 时 间 单 位 通过 tickTime 指 定 ， 也 残 
说 ， 实 际 上 tickTime 设 置 了 超时 时 间 的 下 限 值 ， 因 为 最 小 的 超时 时 间 
为 一 个 tick 时 间 ， 客 户 端 最 小 会 话 超时 事件 为 两 个 tick 时 间 。 


tickTime 的 默认 值 为 3000 晕 秒 ， 更 低 的 tickTime 值 可 以 更 快 地 发 现 
超时 问题， 但 也 会 导致 更 高 的 网 络 流量 (心跳 消息 ) 和 更 高 CPU 使 用 
K (会 话 存 储 器 的 处 理 ) 。 


10.1.2 ”存储 配置 


该 小 节 替 盖 了 一 些 更 高 级 的 配置 参数 ， 这 些 参 数 不 仅 适用 于 独立 
模式 的 服务 ， 也 适用 于 集群 模式 下 的 配置 ， 这 些 参数 不 设置 的 话 并 不 
会 影响 ZooKeeper 的 功能 ， 但 有 些 参数 (例如 dataLogDir) 最 好 还 是 配 
置 : 


preAllocSize 


用 于 设置 预 分 配 的 事务 日 志文 件 (zookeeper.preAllocSize) 的 大 小 
值 ， 以 KB 为 单位 。 


当 写 入 事务 日 志文 件 时 ， 服 务 端 每 次 会 分 配 preAllocSize 值 的 KB 
的 存储 大 小 ， 通 过 这 种 方式 可 以 分 摊 文 件 系 统 将 磁盘 分 配 存储 空间 和 
更 新 元 数据 的 开销 ， 更 重要 的 是 ， 该 方式 也 减少 了 文件 寻 址 操作 的 次 


数 。 


默认 情况 下 preAllocSize 的 值 为 64MB， 缩 小 该 值 的 一 个 原因 是 事 
务 日 志 永 远 不 会 达到 这 么 大 ， 因 为 每 次 快照 后 都 会 重新 局 动 一 个 新 的 


事务 日 志 ， 如 果 每 次 快照 之 间 的 日 志 数 量 很 小 ， 而 且 每 个 事务 本 身 也 
很 小 ，64MB 的 默认 值 显然 束 太 大 了 。 例 如 ， 如 果 我 们 每 1000 个 事务 
进行 一 次 快照 ， 每 个 事务 的 平均 大 小 为 100 字 广 ， 那 么 100KB 的 
preAllocSize 值 则 更 加 合适 。 默 认 的 preAllocSize 值 的 设置 适用 于 默认 的 
snapCount 值 和 平均 事务 超过 512 字 节 的 情况 。 


SnapCount 


指定 每 次 快照 之 间 的 事务 数 (zookeeper.snapCount) 


当 Zookeeper 服 务 器 重启 后 需要 恢复 其 状态 ， 恢 复 时 两 大 时 间 因 素 
分 别 是 为 恢复 状态 而 读 取 快照 的 时 间 以 及 快照 局 动 后 所 发 生 的 事务 的 
执行 时 间 。 执 行 快照 可 以 减少 读 入 快照 文件 后 需要 应 用 的 事务 数量 ， 
但 是 进行 快照 时 也 会 影响 服务 右 性 能 ， 即 便 是 通过 后 台 线 程 的 方式 进 
行 写 入 操作 。 


snapCount 的 默认 值 为 100000， 因 为 进行 快照 时 会 影响 性 能 ， 所 以 
集群 中 所 有 服务 器 最 好 不 要 在 同一 时 间 进 行 快照 操作 ， 只 要 仲裁 服务 
右 不 会 一 同 进行 快照 ， 处 理 时 间 丈 不 会 受 影响 ， 因 此 每 次 快照 中 实际 
的 事务 数 为 一 个 接近 snapCount 值 的 随机 数 。 


注意 ， 如 果 snapCount 数 已 经 达到 ， 但 前 一 个 快照 正在 进行 中 ， 新 
的 快照 将 不 会 开始 ， 服 务 需 也 将 继续 等 到 下 一 个 snapCount 数 量 的 事务 
后 再 开启 一 个 新 的 快照 。 


autopurge.SnapRetainCount 


当 进 行 清理 数据 操作 时 ， 需 要 保留 在 快照 数量 和 对 应 的 事务 日 志 
文件 数量 。 


ZooKeeper 将 会 定期 对 快照 和 事务 日 志 进 行 垃圾 回收 操作 ， 
autopurge.snapRetainCount 值 指定 了 垃圾 回收 时 需要 保留 的 快照 数 ， 显 
然 ， 并 不 是 所 有 的 快照 都 可 以 被 删除 ， 因 为 那样 整 不 可 能 进行 服务 器 
的 恢复 操作 。autopurge.snapRetainCount 的 最 小 值 为 ?3， 也 是 默认 值 的 
大 小 。 


autopurge.purgeInterval 


对 快照 和 日 志 进 行 垃圾 回收 GA) 操作 的 时 间 间 隔 的 小 时 数 。 
如 果 设 置 为 一 个 非 0 的 数字 ，autopurge.purgeInterval 指 定 了 垃圾 回收 周 
期 的 时 间 间 隔 ， 如 有 果 设 置 为 0%， 默 认 情 况 下 ， 垃 圾 回收 不 会 目 动 执行 ， 
而 需要 通过 ZooKeeper 发 行 包 中 的 zkCleanup.sh 脚 本 手动 运行 。 


fsync.warningthresholdms 


触发 警告 的 存储 同步 时 间 痪 值 (fsync.warningthresholdms) , BA 
宣 秒 为 单位 。 


ZooKeeper 服 务 器 在 应 答 变 化 消 轧 前 会 同步 变化 情况 到 存储 中 。 如 
果 同 步 系 统 调用 消耗 了 太 长 时 间 ， 系 统 性 能 就 会 受到 严重 影响 ， 服 务 


怖 会 跟踪 同步 调用 的 持续 时 间 ， 如 果 超 过 fsync.warningthresholdms 只 
就 会 产生 一 个 警告 消息 。 默 认 情况 下 ， 该 值 为 1000 毫 秒 。 


weight.x=n 


该 选项 常常 以 一 组 参数 进行 配置 ， 该 选项 指定 组 成 一 个 仲裁 机 构 
的 某 个 服务 器 的 权重 为 n， 其 权重 n 值 指示 了 该 服务 器 在 进行 投票 时 的 
权重 值 。 在 ZooKeeper 中 一 些 部 件 需要 投票 值 ， 比 如 群 育 选 举 中 和 原子 
广播 协议 中 。 默 认 情 况 下 ， 一 个 服务 右 的 权重 值 为 1， 如 采 定 义 的 一 组 
服务 大 没有 指定 权重 ， 所 有 服务 万 的 权重 值 将 默认 分 配 为 1。 


traceFile 


FAR ZooKeeperh tE, HARER aE EER AS, PERERA 
志 的 文件 名 为 traceFile.yearmonth.day。 除 非 设 置 了 该 选项 


(requestTraceFile) ， 否 则 跟踪 功能 将 不 会 启用 。 


该 选项 用 来 提供 ZooKeeper 所 进行 的 操作 的 详细 视 多 。 不 过 ， 要 想 
记录 这 些 日 志 ，ZooKeeper 服 务 器 必须 序列 化 操作 ， 并 将 操作 写 入 厂 
盘 ， 这 将 争 用 CPU 和 磁 表 的 时 间 。 如 有 果 你 使 用 了 该 选项 ， 请 确保 不 要 
将 跟 躁 文件 放 到 日 志文 件 的 存储 设备 中 。 我 们 还 需要 知道 ， 跟 路 选项 
还 可 能 影响 系统 运行 ， 甚 至 可 能 会 很 难 重 现 女 躁 选项 关闭 时 发 生 的 问 
题 。 另 外 还 有 个 有 趣 的 问题 ，traceFile 选 项 的 Java 系 统 属性 配置 中 不 含 


有 zookeeper 表 绥 ， 而 且 系 统 属性 的 名 称 也 与 配置 选项 名 称 不 同 ， 这 一 


点 请 小 心 。 


10.1.3 网络 配置 


这 些 配 置 参 数 可 以 限制 服务 器 和 客户 端 之 间 的 通信 ， 超 时 选项 也 
在 该 节 进 行 讨论 : 
globalOutstandingLimit 


ZooKeeper 中 竺 处理 请 求 的 最 大 值 


(zookeeper.globalOutstandingLimit) ° 


ZooKeeper 客 户 端 提 交 请 求 比 ZooKeeper 服 务 端 处 理 请 求 要 快 很 
多 ， 服 务 闻 将 会 对 接收 到 的 请 求 队列 化 ， 最 终 (也 许 几 秒 之 内 ) 可 能 
导致 服 务 端 的 内 存 洲 出 。 为 了 防止 发 生 这 个 问题 ，ZooKeeper 服 务 端 中 
如 果 符 处 理 请 求 达 到 globaloOutstandingLimit 值 就 会 限制 客户 端的 请 
求 。 但 是 globalOutstandingLimit 值 并 不 是 硬 限制 ， 因 为 每 个 客户 端 至 
少 有 一 个 每 处 理 请 求 ， 否 则 会 导致 客户 端 超时 ， 因 此 ， 当 达到 
和 obalOutstandingLimit 值 后 ， 服 务 问 还 会 继续 接收 客户 剖 连 接 中 的 请 
求 ， 条 件 是 这 个 客户 剖 在 服务 占 中 没有 任何 待 处 理 的 请 求 。 


为 了 确定 某 个 服务 万 的 全 局 限制 值 ， 我 们 只 是 简单 地 将 该 参数 什 
除 以 服务 套 的 数量 ， 目 前 还 没有 更 智能 的 方式 去 实现 全 局 竺 处 理 操 作 
数量 的 计算 ， 并 强制 采用 该 参数 所 指定 的 限制 值 ， 因 此 ， 该 限制 值 为 
待 处 理 请 求 的 上 限 值 ， 事 实 上 ， 服 务 闫 之 间 完 美的 负载 均衡 解决 方案 
还 无 法 实现 ， 所 以 某 些 服务 器 运行 得 稍 绥 慢 一 点 ， 或 者 处 于 更 高 的 负 
载 中 ， 即 使 最 终 没 有 达到 全 局 限制 值 也 可 能 被 限制 住 否 吐 量 。 


该 参数 的 默认 值 为 1000 个 请 求 ， 你 可 能 并 不 会 修改 该 参数 值 ， 但 
如 果 你 有 很 多 客户 端 发 送 大 数据 包 请 求 可 能 就 需要 降低 这 个 参数 值 ， 
但 我 们 在 实践 中 还 未 遇 到 需要 修改 这 个 参数 的 情况 。 


maxClientCnxns 


允许 每 个 IP 地 址 的 并 发 socket 连 接 的 最 大 数量 。Zookeeper 通 过 流 
量 控制 和 限制 值 来 避免 过 载 情况 的 发 生 。 一 个 连接 的 建立 所 使 用 的 资 
源 远 远 高 于 正常 操作 请 求 所 使 用 的 资源 。 我 们 曾 看 到 过 某 些 错误 的 客 
户 端 每 秒 创建 很 多 ZooKeeper 连 接 ， 最 后 导致 拒绝 服务 (Dos) ， 为 了 
解决 这 个 问题 ， 我 们 添加 了 这 个 选项 ， 通 过 设置 该 值 ， 可 以 在 某 个 IP 
地 址 已 经 有 maxClientCnxns 个 连接 时 拒绝 该 IP 地 址 新 的 连接 。 该 选项 
的 默认 值 为 60 个 并 发 连接 。 


注意 ， 每 个 服务 需 维 护 着 这 个 连接 的 数量 ， 如 采 我 们 有 一 个 5 个 服 
务 甸 的 集群 ， 并 且 使 用 稚 认 的 并 发 连接 数 60， 一 个 欺诈 性 的 客户 绢 会 


随机 连接 到 这 5 个 不 同 的 服务 器 ， 正 第 情况 下 ， 该 客户 端 几 乎 可 以 从 单 
个 IP 地 址 上 建立 300 个 连接 ， 之 后 才 会 触发 某 个 服务 紫 的 限制 。 


clientPortAddress 


限制 客户 端 连接 到 指定 的 接收 信息 的 地 址 上。 默认 情况 下 ， 一 
ZooKeeper 服 务 圳 会 监听 在 所 有 的 网 络 接口 地 址 上 等 待 客户 端的 连接 。 


有 些 服务 器 配置 了 多 个 网 络 接口 ， 其 中 一 个 网 络 接口 用 于 内 网 通 
信 ， 男 一 个 网 络 接口 用 于 公 网 通信 ， 如 果 你 并 不 希望 服务 絮 在 公 网 接 
口 接受 客户 端的 连接 ， 只 需要 设置 dlientPortAddress 选 项 为 内 网 接口 的 
HEHE ° 


minSessionTimeout 


ENAWE, HANED o Se Pin ERS 
请 求 一 个 明确 的 超时 值 ， 而 客户 端 实际 获得 的 超时 值 不 会 低 于 


minSessionTimeout 的 值 。 


ZooKeeper 开 发 人 员 很 想 立 刻 且 准确 地 检测 出 客户 端 故障 发 生 的 情 
况 ， 遗 憾 的 是 ， 在 1.1.4 节 已 经 介绍 过 ， 系 统 不 可 能 实时 处 理 这 种 情 
况 ， 而 是 通过 心跳 和 超时 来 处 理 。 超 时 取决 于 ZooKeeper 客 户 端 与 服务 
器 之 间 的 响应 能 力 ， 更 重要 的 是 两 者 之 间 的 网 络 延 时 和 可 靠 性 。 超 时 
时 间 人 允许 的 最 小 值 为 客户 端 与 服务 器 之 间 网 络 的 环 回 时 间 ， 但 偶尔 还 


征 可 能 发 生 丢 包 现象 ， 当 这 种 情况 发 生 时 ， 因 为 重 传 超时 导致 接收 咖 
应 时 间 的 增加 ， 并 会 导致 接收 重 发 包 的 延 时 。 


minSessionTimeout 的 默认 值 为 tickTime 值 的 两 倍 。 配 置 该 参数 值 
过 低 可 能 会 导致 钳 误 的 客户 端 故障 检测 ， 配 置 该 参数 值 过 高 会 延迟 客 
户 端 故障 的 检测 时 间 。 


maxSession Timeout 


RWAN AE, HAL SRD o Se Pin MER 
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maxSessionTimeout 的 值 。 


虽然 该 参数 并 不 会 影响 系统 的 性 能 ， 但 却 可 以 限制 一 个 客户 端 消 
耗 系 统 资源 的 时 间 ， 默 认 情 况 下 maxSessionTimeout 的 时 间 为 tickTime 
的 20 倍 。 


10.1.4 ”集群 配置 


当 以 一 个 集群 来 构建 ZooKeeper 服 务 时 ， 我 们 需要 为 每 台 服 务 妖 配 
置 正确 的 时 间 和 服务 器 列表 信息 ， 以 便服 务 絮 之 间 可 以 互相 建立 连接 
并 进行 故障 监测 ， 在 ZooKeeper 的 集群 中 ， 这 些 参数 的 配置 必须 一 致 : 


initLimit 


对 于 追随 者 最 初 连接 到 群 首 时 的 超时 值 ， 单 位 为 tick 值 的 倍数 。 


当 某 个 追随 者 最 初 与 群 首 建立 连接 时 ， 它 们 之 间 会 传输 相当 多 的 
数据 ， 尤 其 是 追随 者 落后 整体 很 多 时 。 配 置 initLimit 参 数值 取决 于 群 
下 与 追随 者 之 间 的 网 络 传输 速度 情况 ， 以 及 传输 的 数据 量 大 小 ， 如 果 
ZooKeeper 中 保存 的 数据 量 特别 大 ( 即 存在 大 量 的 znode 市 点 或 大 数据 
R) 或 者 网 络 非 常 缓慢 ， 就 需要 增 大 initLimit 值 ， 因 为 该 值 取决 于 环 
境 问 题 ， 所 有 没有 默认 值 。 你 需要 为 该 参数 配置 适当 的 值 ， 以 便 可 以 
传输 所 期 望 的 最 大 快照 ， 也 许 有 时 你 需要 多 次 传输 ， 你 可 以 配置 
initLimit 值 为 两 倍 你 所 期 望 的 值 。 如 有 果 配 置 initLimit 值 过 高 ， 那 么 首次 
连接 到 故障 的 服务 器 就 会 消耗 更 多 的 上 时间， 同时 还 会 消耗 更 多 的 恢复 
时 间 ， 因 此 最 好 在 你 的 网 络 中 进行 追随 者 与 群 首 之 间 的 网 络 基准 测 
试 ， 以 你 规划 所 使 用 的 数据 量 来 测试 出 你 所 期 望 的 时 间 。 


syncLimit 


对 于 追随 者 与 群 首 进行 Sync 操作 时 的 超时 值 ， 单 位 为 tick 值 的 倍 


追随 者 总 十 会 稍稍 落后 于 群 首 ， 但 是 如 果 因 为 服务 硕 负 载 或 网 络 
问题 ， 束 会 导致 退 随 者 落后 群 首 太 多 ， 其 至 需要 放弃 该 追随 着 ， 如 采 
群 首 与 追随 者 无 法 进行 sync 操 作 ， 而 且 超过 了 syncLimit 的 tick 时 间 ， 束 
会 放弃 该 追随 者 。 与 initLimit 参 数 类 似 ，syncLimit 也 没有 默认 值 ， 与 


initLimit 不 同 的 是 ，syncLimit 并 不 依赖 于 ZooKeeper 中 保存 的 数据 量 大 
小 ， 而 是 依赖 于 网 络 的 延迟 和 吞吐 量 。 在 高 延迟 网 络 环境 中 ， 发 送 数 
据 和 接收 响应 包 会 耗费 更 多 时 间 ， 此 时 就 需要 调 高 syncLimit 值 。 即 使 
在 相对 低 延 迟 的 网 络 中 ， 如 果 某 些 相 对 较 大 的 事务 传输 给 追随 者 需要 
一 定 的 时 间 ， 你 也 需要 提高 syncLimit 值 。 


leaderServes 


配置 值 为 “yes” 或 “ho” 标志 ， 指 示 群 目 服 务 器 古 否 为 客户 端 提 供 服 
pa 


务 (zookeeper.leaderServes) ° 


担任 群 首 的 ZooKeeper 服 务 硕 需要 做 很 多 工作 ， 它 需要 与 所 有 追随 
者 进行 通信 并 会 执行 所 有 的 变更 操作 ， 也 束 意 味 着 群 首 的 负载 会 比 追 
随 者 的 负载 高 ， 如 果 群 首 过 载 ， 整 个 系统 可 能 都 会 受到 影响 。 


该 标志 位 如 果 设 置 为 “no” 就 可 以 使 群 首 除去 服务 客户 端 连接 的 负 
担 ， 使 群 首 将 所 有 资源 用 于 处 理 退 随 者 发 送 给 它 的 变更 操作 请 求 ， 这 
样 可 以 提高 系统 状态 变更 操作 的 知 吐 能 力 。 换 名 话说 ， 如 采 群 首 不 处 
理 任何 与 其 直 连 的 客户 端 连接 ， 追 随 痢 束 会 有 更 多 的 客户 端 ， 因 为 连 
接 到 群 首 的 客户 端 将 会 分 做 到 追随 者 上 ， 励 其 注意 在 集群 中 服务 器 数 
量 比较 少 的 时 候 。 默 认 情 况 下 ，leaderServes 的 值 为 “yes”。 


server.x=[hostname]: n: n[: observer] 


ARS tex HAC EE BL o 


ZooKeeperfR A ae a Se AE Ee is. BCC Ae SCA 
置 项 就 指定 了 服务 器 x 的 配置 信息 ， 其 中 x 为 服务 器 的 ID 值 (一 个 整 
数 ) 。 当 一 个 服务 器 启动 后 ， 就 会 读 取 data 目 未 下 myid 文 件 中 的 值 ， 
之 后 服务 器 束 会 使 用 这 个 值 作为 查找 server.x 项 ， 通 过 该 项 中 的 数据 配 
置 服务 右上 自己。 如 果 需 要 连接 到 男 一 个 服务 器 y， 束 会 使 用 server.y 项 
的 配 鞋 信息 来 与 这 个 服务 器 进行 通信 。 


其 中 hostname 为 服务 器 在 网 络 n 中 的 名 称 ， 同 时 后 面 跟 了 两 个 TCP 
的 端口 号 ， 第 一 个 端口 用 于 事务 的 发 送 ， 第 二 个 端口 用 于 群 首选 举 ， 
典型 的 端口 号 配置 为 2888: 3888。 如 果 最 后 一 个 字段 标记 了 observer 属 
性 ， 服 务 器 就 会 进入 观察 者 模式 。 


注意 ， 所 有 的 服务 器 使 用 相同 的 serverx 配 置信 息 ， 这 一 点 非常 重 
要 ， 否 则 的 话 ， 因 服务 着 之 间 可 能 无 法 正确 建立 连接 而 导致 整个 集群 
无 法 正常 工作 。 


cnx Timeout 


在 群 首选 举 打 开 一 个 新 的 连接 的 超时 值 


(zookeeper.cnxTimeout) 。 


ZooKeeper 服 务 器 在 进行 群 站 选举 时 互相 之 间 会 建立 连接 ， 该 选项 
值 确定 了 一 个 服务 辟 在 进行 重 试 前 会 等 竺 连接 成 功 建立 的 时 间 为 多 
久 ，9.2 市 介绍 了 该 超时 的 用 途 。 默 认 的 超时 时 间 为 5 秒 ， 该 值 足 够 
大 ， 也 许 你 并 不 需要 修改 。 


electionAlg 
选举 算法 的 配置 选项 。 


为 了 整个 配置 的 完整 性 ， 我 们 也 列 入 了 该 选项 。 该 选项 用 于 选择 
不 同 的 群 首选 举 算法 ， 但 除了 默认 的 配置 外 ， 其 他 算法 都 已 经 弃 用 
了 ， 所 以 你 并 不 需要 配置 这 个 选项 。 


10.1.5 “认证 和 授权 选项 


该 下 中 包括 认证 和 授权 相关 的 选 型 配置 。 对 于 Kerberos 相 关 的 配 
置 选 项 信息 ， 请 参考 6.1.27: 


zookeeper.DigestAuthenticationProvider.superDigest 〈 只 适用 于 Java 
系统 属性 ) 该 系统 属性 指定 了 “super” 用 户 的 密码 摘要 信息 〈 该 功能 默 
认 不 启用 ) ， 以 super 用 户 认证 的 客户 端 会 跳 过 所 有 ACL 检 查 。 该 系统 
属性 的 值 形式 为 super: encoded_digest。 为 了 生成 加 密 的 摘要 ， 可 以 使 


用 org.apache.zookeeper.serverauth.DigestAuthenticationProvider 工 具 ， 使 


FRAT SUM FP: 


java -cp $ZK_CLASSPATH \ 
org.apache. zookeeper.server.auth.DigestAuthenticationProvider super:asdf 


通过 命令 行 工具 生成 了 一 个 asdf 这 个 密码 的 加 密 摘 要 信息 : 


super :asdf ->super : T+4Q0ey4ZZ8Fnni1Yl2GZtbH2W4= 


K TERA EAA, AT NEA aS KRM: 


export SERVER_JVMFLAGS 

SERVER_JVMFLAGS=-Dzookeeper .DigestAuthenticationProvider .superDigest= 
super :T+4Qoey4ZZ8FnniiY12GZtbH2w4= 

./bin/zkServer.sh start 


现在 ， 当 我 们 通过 zkCli 进 行 连接 时 ， 可 以 通过 以 下 方式 : 


[zk: localhost:2181(CONNECTED) 0] addauth digest super:asdf 
[zk: localhost:2181(CONNECTED) 1] 


此 时 ， 你 已 经 以 super 用 户 的 号 份 被 认证 ， 现 在 不 会 被 任何 ACL 所 
限制 。 


ZooKeeper 客 户 端 与 服务 器 之 间 的 连接 并 未 加 密 ， 因 此 不 要 在 不 可 
信 的 链接 中 使 用 super 的 密码 ， 使 用 super 密 码 的 安全 方式 是 在 


ZooKeeper 服 务 器 本 机 上 使 用 super 密 码 运 行 客户 端 。 
10.1.6 ” 非 安 全 配置 


以 下 的 配置 选项 也 许 会 有 用 ， 但 在 你 使 用 这 些 配 置 时 需要 小 心 ， 
这 些 配置 选项 只 用 于 非常 特殊 情况 ， 大 多 数 运 维 人 员 认 为 并 不 需要 这 
ECAC: 


forceSync 


通过 “yes” 或 “ho” 移 项 可 以 控制 是 否 将 数据 信息 同步 到 存储 设备 上 


(zookeeper.forceSync) 


默认 情况 下 ，forceSync 配 置 yes 时 ， 事 务 只 有 在 同步 到 存储 设备 后 
会 被 应 答 ， 同 步 系统 调用 的 消耗 很 大 ， 而 且 也 是 事务 处 理 中 最 大 的 
延迟 原因 之 一 。 如 有 宁 forceSync 配 置 为 no， 事 务 会 在 写 入 到 操作 系统 后 
就 立刻 被 应 答 ， 在 将 事务 写 入 做 盘 之 前 ， 这 些 事务 党 向 缓存 于 内 人 存 之 
中 ， 配 置 forceSync 为 no 可 以 提高 性 能 ， 但 代价 是 服务 右 朋 省 或 停电 故 
障 时 可 恢复 性 。 


jute.maxbuffer 〈 仅 适用 于 Java 系 统 属性 ) 


一 个 请 求 或 响应 的 最 大 值 ， 以 字 节 为 单位 。 该 选项 只 能 通过 Java 


的 系统 属性 进行 配置 ， 并 且 选 项 名 称 没 有 zookeeper 前 绥 。 


ZooKeeper 中 内 置 了 一 些 健康 检查 ， 其 中 之 一 不 古 对 可 传输 的 
znode 节 点 数据 的 大 小 的 检查 ，ZooKeeper 被 设计 用 于 保存 配置 数据 ， 
配置 数据 一 般 由 少量 的 元 数据 信息 KAJLA) 所 组 成 。 默 认 情 
况 下 ， 一 个 请 求 或 啊 应 消息 如 果 大 于 1M 字 刘 ， 束 会 修 系 统 拒 绝 ， 你 可 
以 使 用 该 属性 来 修改 健康 检查 值 ， 调 小 检查 值 ， 或 者 你 真 的 确认 要 调 
大 检查 值 。 


注意 : 修改 健康 检查 值 


虽然 通过 jute.maxbuffer 指 定 的 限制 值 可 以 进行 大 块 数据 的 写 入 操 
作 ， 但 获取 一 个 znode 世 点 的 子 万 点 ， 而 同时 该 节点 有 很 多 子 万 点 时 束 
会 出 现 问 题 。 如 采 一 个 znode 世 点 含有 儿 十 万 个 子 节 点 ， 每 个 子 世 点 的 
名 字 长 度 平均 为 10 个 子 符 ， 在 试 着 返回 子 节 点 列表 时 束 会 命中 默认 最 
大 缓冲 大 小 检查 ， 此 时 吏 会 导致 连接 和 被 重 置 。 


skipACL 
跳 过 所 有 ACL 检 查 (zookeeper.skipACL) ° 


处 理 ACL 检 查 会 有 一 定 的 开销 ， 通 过 该 选项 可 以 关闭 ACL 检 查 功 
能 ， 这 样 做 可 以 提高 性 能 ， 但 也 会 将 数据 完全 骏 露 给 任何 一 个 可 以 连 
接 到 服务 器 的 客户 端 。 


readonlymode.enabled ( 仅 适 用 于 Java 系 统 属性 ) 


将 该 配置 设置 为 tue 可 以 局 用 服务 器 只 读 模 式 功 能 ， 客 户 端 可 以 
以 只 读 模 式 的 请 求 连接 服务 器 并 读 取 信息 〈 可 能 是 已 过 期 的 信息 ) ， 
即使 该 服务 器 在 仲裁 中 因 分 区 问题 而 被 分 隔 。 为 了 局 用 只 读 模 式 ， 客 
户 端 需要 配置 canBeReadOnly 为 true。 


该 功能 可 以 使 客户 端 即 使 在 网 络 分 区 发 生 时 也 能 读 取 (不 能 写 
A) ZooKeeper 的 状态 ， 在 这 种 情况 下 ， 被 分 区 而 分 离 的 客户 端 依然 可 
以 继续 取得 进展 ， 并 不 需要 等 行 分 区 问题 被 修复 。 特 别 注意 ， 一 个 与 
集群 中 其 他 服务 器 失去 连接 ZooKeeper 也 许 会 终止 以 只 读 模式 提供 过 期 
的 数据 服务 。 
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ZooKeeper 采 用 SLF4J 库 (JAVA 简易 日 志 门 面 ) 作为 日 志 的 抽象 
层 ， 黑 认 使 用 Log4J 进 行 实际 的 日 志 记 录 功 能 。 使 用 两 层 日 志 抽象 看 起 
来 似乎 有 些 多 余 ， 的 确 是 这 样 。 本 节 中 ， 我 们 将 会 简单 介绍 如 何 配置 
Log4J， 虽 然 Log4J 非 常 灵活 且 功 能 强大 ， 但 是 也 有 点 复杂 。 关 于 Log4J 
有 专门 的 书籍 介绍 ， 本 下 中 ， 我 们 只 是 简单 介绍 其 基本 功能 。 


Log4J 的 配置 文件 为 log4j.properties， 系 统 会 从 classpath 中 加 载 这 个 
文件 ， 对 于 Log4J 比 较 失 望 的 是 ， 如 果 对 应 路 径 不 存在 log4j.properties 
文件 ， 我 们 会 看 到 以 下 输出 信息 : 


10g4]j :WARN No appenders could be found for logger (org.apache.zookeeper.serv ... 
log4j:WARN Please initialize the log4j system properly. 
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一 般 ，log4j.properties 会 保存 到 classpath 中 的 conf 目 孙 下 ， 让 我 们 
看 一 看 在 ZooKeeper 中 的 log4j.properties 文 件 的 主要 部 分 : 


zookeeper.root.logger=INFO, CONSOLE® 


zookeeper .console. threshold=INFO 
zookeeper.log.dir=. 

zookeeper .log.file=zookeeper.log 
zookeeper . log. threshold=DEBUG 
zookeeper.tracelog.dir=. 

zookeeper .tracelog. file=zookeeper_trace.log 
log4j .rootLogger=${zookeeper.root.logger}@ 


log4j .appender .CONSOLE=org.apache.1og4j .ConsoleAppender® 


1og4j .appender .CONSOLE. Threshold=${zookeeper .console. threshold}@ 


log4j .appender .CONSOLE. layout=org.apache.1log4j.PatternLayout® 


log4j .appender.CONSOLE. layout .ConversionPattern=%d{ISO8601} [myid:%X{myid}] - 


log4j .appender .ROLLINGFILE=org.apache.1og4j .RollingFileAppender®© 


log4j .appender .ROLLINGFILE. Threshold=${zookeeper .log.threshold}@ 


log4j .appender .ROLLINGFILE.File=${zookeeper.log.dir}/${zookeeper.log. file} 

log4j .appender .ROLLINGFILE .MaxFileSize=10MB 

log4j .appender .ROLLINGFILE .MaxBackupIndex=10 

log4j .appender .ROLLINGFILE.layout=org.apache.1log4j.PatternLayout 

log4j .appender.ROLLINGFILE. layout .ConversionPattern=%d{ISO8601} [myid:%xX{myid}] - 


中 第 一 组 配置 中 ， 所 有 配置 项 均 以 zookeeper 开 头 ， 配 置 了 该 文件 
的 默认 值 ， 这 些 配 置 项 实际 上 是 系统 属性 配置 ， 可 以 通过 java 命 令 行 
指定 -D 参 数 来 覆盖 JVM 的 配置 。 第 一 行 的 日 志 配 置 中 ， 默 认 配 置 了 日 
志 消 居 的 级 别 为 INFO， 即 所 有 低 于 INFO 级 别 的 日 志 消 居 都 会 被 丢 
弃 ， 使 用 的 appender 为 CONSOLE。 你 可 以 指定 多 个 appender， 例 如 ， 
你 如 果 想 将 日 志 信息 同时 和 输出 到 CONSOLE 和 ROLLINGEFILE 时 ， 可 以 


配置 zookeeper.root.logger 项 为 INFO, CONSOLE, ROLLINGFILE ° 


@OrootLogger 指 定 了 处 理 所 有 日 志 消息 的 日 志 处 理 咒 ， 因 为 我 们 并 
不 需要 其 他 日 志 处 理 右 。 


(3) 该 行 配置 以 CONSOLE 名 称 定义 了 一 个 类 ， 该 类 会 处 理 消息 的 输 
o 在 这 里 使 用 的 是 ConsoleAppender 类 。 
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(4 在 appender 的 定义 中 也 可 以 过 滤 消 息 ， 该 行 配 置 了 这 个 appender 
会 忽略 所 有 低 于 INFO 级 别 的 消息 ， 因 为 zookeeper.root.logger 中 定义 了 
全 局 阀 值 为 INFO 。 


@appender 使 用 的 布局 类 对 输出 日 志 在 输出 前 进行 格式 化 操作 。 
我 们 通过 布局 模式 定义 了 输出 日 志 消 息 外 还 输出 日 志 级 别 、 时 间 、 线 
程 信息 和 调用 位 置 等 信息 。 


@RollingFileAppender 实 现 了 滚动 日 志文 件 的 输出 ， 而 不 是 不 断 地 
输出 到 一 个 单个 日 志文 件 或 控制 台 。 除 非 ROLLINGEFILE 被 rootLogger 
引用 ， 否 则 该 appender 会 被 忽略 。 


定义 ROLLINGFILE 的 输出 级 别 为 DEBUG， 因 为 rootLogger 过 滤 
了 所 有 低 于 INFO 级 别 的 日 志 ， 所 以 ， 你 如 果 你 想 看 DEBUG 消 轧 ， 怠 
必须 将 zookeeper.root.logger 项 的 配置 从 INFO 修 改 为 DEBUG 。 


日 志 记 录 功 能 会 影响 进程 的 性 能 ， 特 别 是 开启 了 DEBUG 级 别 时 ， 
与 此 同时 ，DEBUG 级 别提 供 了 大 量 有 价值 的 信息 ， 可 以 帮 有 我 们 诊断 问 
题 。 有 一 个 方法 可 以 平衡 性 能 和 开销 问题 ， 详 细 日 志 为 你 提供 了 更 多 
细节 信息 ， 因 此 我 们 可 以 配置 appender 的 日 志 级 别 为 DEBUG， 而 
rootLogger 的 级 别 为 WARN， 当 服务 器 运行 时 ， 如 果 你 需要 诊断 某 个 问 
题 ， 你 可 以 通过 JMX 动 态 调 整 rootLogger 的 级 别 为 INFO 或 DEBUG ， 更 
详细 地 检查 系统 的 活动 情况 。 


10.1.8 ”专用 资源 


当 你 考虑 在 服务 器 上 运行 ZooKeeper 如 何 配置 时 ， 服 务 器 本 身 的 配 
置 也 很 重要 。 为 了 达到 你 所 期 望 的 性 能 ， 可 以 考虑 使 用 专用 的 日 志 存 
储 设备 ， 束 是 说 日 志 目 永 处 于 专属 的 硬盘 上 ， 没 有 其 他 进程 使 用 该 硬 
如 资源， 甚至 周期 性 的 模糊 快照 也 不 会 使 用 该 硬盘 。 


10.2 ”配置 ZooKeeper 集 群 


关于 仲裁 (quorum) 的 概念 ， 请 参考 2.2.1 六 ， 该 概念 深 深 贯穿 于 
ZooKeeper 的 设计 之 中 。 在 复制 模式 下 处 理 请 求 时 以 及 选举 群 首 时 都 与 
仲裁 的 概念 有 关 ， 如 果 ZooKeeper 集 群 中 存在 法 定 人 数 的 服务 恬 已 经 局 
动 ， 整 个 集群 束 可 以 继续 工作 。 


与 之 相关 的 一 个 概念 是 观察 者 (observer) ， 请 参考 9.4 节 。 观 察 
者 与 集群 一 同 工 作 ， 接 收 客 户 问 请求 并 处 理 服务 器 上 的 状态 变更 ， 但 
征 群 育 并 不 会 等 待 观察 者 处 理 请 求 的 啊 应 包 ， 同 时 集群 在 进行 群 首选 
举 时 也 不 会 考虑 观 绎 者 的 通知 消 上 乱 。 本 节 我 们 束 来 讨论 一 下 如 何 对 仲 
裁 和 集群 进行 配置 。 


10.2.1 多 数 原则 


当 集 群 中 拥有 足够 的 ZooKeeper 服 务 器 来 处 理 请 求 时 ， 我 们 称 这 组 
服务 器 的 集合 为 仲裁 法 定 人 数 ， 我 们 不 布 望 有 两 组 不 相交 的 服务 器 集 
合同 时 处 理 请 求 ， 否 则 我 们 束 会 进入 脑 裂 模式 中 。 我 们 可 以 避免 脑 狼 
问题 ， 通 过 定义 仲裁 法 是 人 数 的 数量 至 少 为 所 有 服务 器 中 的 多 数 。 
(注意 ， 集 群 服务 器 数量 的 一 般 并 不 会 构成 多 数 原 则 ， 至 少 需要 大 于 
所 有 服务 器 一 半数 量 来 构成 多 数 原则 ) 


当 配 置 多 个 服务 器 来 组 成 ZooKeeper 集 群 时 ， 我 们 默认 使 用 多 数 原 
则 作为 仲裁 法 定 人 数 。ZooKeeper 会 目 动 监测 是 否 运行 于 复制 模式 ， 从 
配置 文件 读 取 时 确定 是 否 拥 有 多 个 服务 右 的 配置 信息 ， 并 默认 使 用 多 
数 原 则 的 仲裁 法 定 人 数 。 


10.2.2 ”法 定 人 数 的 可 配置 性 


我 们 之 前 提 到 过 关于 法 定 人 数 的 一 个 重要 属性 是 ， 如 果 一 个 法 定 
人 数 解散 了 ， 集 群 中 另 一 个 法 定 人 数 形成 ， 这 两 个 法 定 人 数 中 至 少 有 
一 个 服务 器 必须 交集 。 多 数 原 则 的 法 定 人 数 无 颖 满足 了 这 一 交集 的 属 
性 。 一 般 ， 法 定 人 数 并 未 限制 必须 满足 多 数 原 则 ，ZooKeeper 也 人 允许 灵 
活 的 法 定 人 数 配 置 ， 这 种 特殊 方案 就 是 对 服务 器 进行 分 组 配置 时 ， 我 
们 会 将 服务 器 分 组 成 不 相交 的 集合 并 分 配 服务 器 的 权重 ， 通 过 这 种 方 
案 来 组 成 法 定 人 数 ， 我 们 需要 使 多 数组 中 的 服务 器 形成 多 数 投票 原 
则 。 例 如 ， 我 们 有 三 个 组 ， 每 个 组 中 有 三 个 服务 器 ， 每 个 服务 器 的 权 
重 值 为 1， 在 这 种 情况 下 ， 我 们 需要 四 个 服务 器 来 组 成 法 定 人 数 : FET 
组 中 的 两 个 服务 器 ， 另 一 组 中 的 两 台 服 务 器 。 总 之 ， 其 数学 逻辑 归结 
为 : 如 果 我 们 有 G 个 组 ， 我 们 所 需要 的 服务 器 为 一 个 G 组 的 服务 器 ， 满 
足 |G|>IGl/2， 同 时 对 于 G 组 中 的 服务 右 集 合 g， 我 们 还 需要 集合 g 中 的 集 
合 g 满 足 集 合 g 的 所 有 权重 值 之 和 W' 不 小 于 集合 g 的 权重 值 之 和 (A: 
W>W/2) 。 


通过 以 下 配置 选项 可 以 创建 一 个 组 : 
group.x=n[: n] 


启用 法 定 人 数 的 分 层 构 建 方式 。x 为 组 的 标识 符 ， 等 号 后 面 的 数字 
对 应 服务 右 的 标识 符 ， 赋 值 操作 符 右 侧 为 冒号 分 隔 的 服务 闫 标识 符 的 
列表 。 注 意 ， 组 与 组 之 间 不 能 存在 交集 ， 所 有 组 的 并 集 组 成 了 整个 
ZooKeeper 集 群 ， 换 句 话 说， 集群 中 的 每 个 服务 万 必须 在 某 个 组 中 被 列 
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下 面 的 示例 说 明了 9 个 服务 器 被 分 为 3 组 的 情况 : 


这 个 例子 中 ， 每 个 服务 器 的 权重 都 一 样 ， 为 了 构成 法 定 人 数 ， 我 
们 需要 两 个 组 及 这 两 个 组 中 各 取 两 个 服务 器 ， 也 整 古 总 共 4 个 服务 器 。 
但 根据 法 是 人 数 多 数 原则 ， 我 们 至 少 需 要 5 个 服务 右 来 构成 一 个 法 定 人 
数 。 注 意 ， 不 能 从 任何 子 集 形成 法 定 人 数 的 4 个 服务 器 ， 不 过 ,一 个 组 
全 部 服务 器 加 上 男 一 个 组 的 一 个 单独 的 服务 器 并 不 能 构成 法 是 人 数 。 


当 我 们 在 跨 多 个 数据 中 心 部 署 ZooKeeper 服 务 时 ， 这 种 配置 方式 有 
很 多 优点 。 例 如 ， 一 个 组 可 能 表示 运行 于 不 同 数据 中 心 的 一 组 服务 
钥 ， 即 使 这 个 数据 中 心 月 演 ，ZooKeeper 服 务 也 可 以 继续 提供 服务 。 


在 跨 三 个 数据 中 心 部 署 的 这 种 方式 可 以 容 妨 某 个 数据 中 心 的 故障 
问题 ， 我 们 可 以 在 两 个 数据 中 心中 每 一 个 部 署 三 个 服务 器 ， 而 只 在 第 
三 个 数据 中 心 部 嗜 一 个 服务 邵 ， 通 过 这 种 方式 来 使 用 多 数 原 则 ， 这 
样 ， 如 采 某 个 数据 中 心 不 可 用 ， 其 他 两 个 数据 中 心 还 能 组 成 法 定 人 
数 。 这 种 配置 方式 的 优点 是 这 七 个 服务 器 中 的 任何 四 个 都 构成 一 个 法 
定 人 数 ， 而 缺点 是 一 旦 某 个 数据 中 心 不 可 用 ， 其 他 数据 中 心中 任何 服 
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权 ， 例 如 ， 基 于 每 个 数据 中 心中 的 客户 端 数量 来 配置 权重 值 。 只 有 两 
个 数据 中 心 时 ， 如 条 每 个 服务 万 的 权重 值 都 一 样 ， 我 们 吏 无 法 容 仿 任 
何 一 个 数据 中 心 的 失效 ， 但 是 如 有 果 我 们 对 某 个 服务 器 分 配 了 更 高 的 权 
重 值 ， 我 们 就 可 以 容忍 这 两 个 数据 中 心中 某 个 数据 中 心 的 失效 。 假 
设 ， 我 们 在 每 个 数据 中 心中 分 配 三 个 服务 器 ， 并 且 我 们 将 这 些 服务 器 
均 放 到 同一 组 中 : 


group.1=1:2:3:4:5:6 
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为 了 给 服务 器 分 配 不 同 的 权重 值 ， 我 们 可 以 通过 以 下 选 型 进行 配 
H: 


weight.x=n 


S group m — EMASE, ee AKERA ASEA 
定 人 数 时 分 配 一 个 权重 值 为 n。 其 值 n 为 服务 器 投票 时 的 权重 ， 
ZooKeeper 中 群 首选 举 和 原子 广播 协议 中 均 需 要 投票 。 默 认 情 况 下 ， 服 
务 器 的 权重 值 为 1， 如 来 配置 文件 中 定义 了 组 的 选项 ， 但 为 指定 权重 
值 ， 所 有 的 服务 器 均 会 被 分 配 权重 值 1。 


我 们 假设 ， 某 个 数据 中 心 只 要 其 所 有 服务 器 均 可 用 ， 即 使 在 其 他 
数据 中 心 失 效 时 ， 这 个 数据 中 心 也 可 以 提供 服务 ， 我 们 暂且 称 该 数据 
中 心 为 D1， 此 时 ， 我 们 可 以 为 D1 中 的 某 个 服务 句 分 配 更 高 权重 值 ， 以 
便 可 以 更 容易 与 其 他 服务 器 组 成 法 定 人 数 。 


假设 D1 中 有 服务 右 1、2 和 和 3， 我们 通过 以 下 方式 为 服务 右 1 分 配 更 
高 的 权重 值 : 


weight ,1=2 


通过 以 上 配置 ， 我 们 就 有 了 7 个 投票 ， 在 构成 法 是 人 数 时 ， 我 们 只 
需要 4 个 投票 。 如 果 没 有 weight.1=2 参 数 ， 任 何 服务 器 都 需要 与 其 他 三 
个 服务 句 来 构成 法 定 人 数 ， 但 有 了 这 个 参数 配置 ， 服 务 右 1 与 两 个 服务 


右 束 可 以 构成 法 是 人 数 。 因 此 ， 只 要 D1 可 用 ， 即 使 其 他 数据 中 心 发 生 
故障 ， 服 务 右 1、2 和 3 也 能 构成 法 定 人 数 并 继续 提供 服务 。 


通过 以 上 不 同 的 法 定 人 数 配置 的 者 干 示例 ， 我 们 看 到 该 配置 对 部 
车 的 影响 。 我 们 提供 的 分 层 方案 非常 灵活 ， 通 过 不 同 的 权重 值 和 组 的 
管理 可 以 提供 不 同 的 分 层 配置 。 


10.2.3 ”观察 者 


回忆 之 前 说 介绍 的 ， 观 察 者 (observer) 为 ZooKeeper 服 务 器 中 不 
参与 投票 但 保障 状态 更 新 顺序 的 特殊 服务 器 。 配 置 ZooKeeper 集 群 使 用 
观察 者 ， 需 要 在 观察 者 服务 器 的 配置 文件 中 添加 以 下 行 : 


peerType=observer 


同时 ， 还 需要 在 所 有 服务 恬 的 配置 文件 中 添加 该 服务 絮 的 : 
observer 定 义 。 如 下 : 


server.1:localhost:2181:3181:observer 


10.3 HACE 


我 们 看 到 ， 配 置 涉及 很 多 工作 ， 不 是 吗 ? 不 过 ， 现 在 你 已 经 掌握 
了 如 何 配 置 ， 你 将 要 开始 配置 一 个 由 三 个 不 同 的 服务 器 组 成 的 
ZooKeeper 集 群 ， 但 是 一 两 个 月 后 ， 你 发 现 使 用 ZooKeeper 的 客户 端 进 
程 越 来 越 多 ， 并 且 成 为 一 个 更 加 关键 的 服务 ， 因 此 你 需要 增加 集群 服 
务 器 到 五 个 服务 器 ， 没 什么 大 不 了 的 ， 是 嘛 ? 你 可 以 在 深夜 停止 集 
群 ， 重 新 配置 所 有 服务 器 ， 然 后 不 到 一 分 钟 之 内 恢复 服务 ， 如 果 应 用 
程序 恰当 处 理 了 Disconnected 事 件 ， 用 户 可 能 不 会 感知 到 服务 中 断 。 我 
们 在 刚 开始 开发 ZooKeeper 时 也 是 这 么 想 的 ， 但 事实 证 明 ， 情 况 要 复杂 


得 多 。 


考虑 图 10-1 的 场景 ， 三 个 服务 器 (A、B、C) 组 成 了 整个 集群 ， 
服务 器 C 因 某 些 网 络 拥塞 问题 稍稍 落后 于 整个 集群 ， 因 此 服务 器 C 刚 刚 
了 解 事务 到 <1，3> (PLANTER, SAM DIAN RNS mR, 
在 9.1 节 已 经 介绍 过 ， 但 因为 服务 器 A 和 B 的 通信 和 良好 ， 所 以 服务 器 C 稍 
稍 落 后 并 不 会 导致 整个 系统 变 慢 ， 服 务 器 A 和 B 可 以 提交 事务 到 <1， 
6>) 。 


图 10-1: 含有 3 个 服务 夯 的 集群 将 要 扩展 到 5 个 


现在 ,假设 我 们 将 所 有 服务 停止 ， 添 加 服务 器 D 和 E 到 集群 中 ， 当 
然 这 两 个 新 的 服务 器 并 不 存在 任何 状态 信息 ， 我 们 重 狐 配置 了 服务 器 
A、B、C、D、E 成 为 更 大 的 集群 并 启动 集群 恢复 服务 ， 因 为 我 们 现在 
有 了 五 个 服务 器 ， 我 们 至 少 需 要 三 个 服务 器 组 成 一 个 法 定 人 数 ， 而 服 
务 器 C、D、E 足 够 构成 法 定 人 数 ， 因 此 在 图 10-2 中 我 们 看 到 当 这 些 服务 
器 构成 法 定 人 数 并 开始 同步 时 都 发 生 了 什么 。 这 个 场景 可 以 简单 重 
现 ， 如 果 服 务 器 A 和 B 的 启动 慢 一 些 ， 比 如 服务 器 A 和 B 比 其 他 三 个 服务 
器 的 启动 晚 一 些 。 一 旦 新 的 法 定 人 数 开始 同步 ， 服 务 器 A 和 B 就 会 与 服 
务 器 C 进 行 同步 ， 因 为 法 定 人 数 中 服务 器 C 的 状态 为 最 新 状态 ， 法 定 人 
数 的 三 个 成 员 服 务 器 会 同步 到 最 后 的 事务 <1，3>， 而 不 会 同步 <1， 
4>、<1，5> 和 <1，6> 这 三 个 事务 ， 因 为 服务 癸 A 和 B 并 未 构成 法 定 人 数 
的 成 员 。 


图 10-2: 5 个 服务 紫 的 集群 的 法 是 人 数 为 3 


因为 已 经 构成 一 个 活跃 的 法 定 人 数 ， 这 些 服务 器 可 以 开始 提交 新 
的 事务 ， 我 们 假设 有 两 个 事务 ，<2，1> 和 <2，2>， 如 图 10-3 所 示 ， 当 
服务 器 A 和 B 启 动 后 连接 到 服务 器 C 后 ， 服 务 器 C 作 为 群 首 欢 迎 其 加 入 到 
集群 之 中 ， 并 在 收 到 事务 <2，1> 和 <2，2> 后 立即 告知 服务 器 A 和 B 删 除 
事务 <1，4>、<1，5> 和 <1，6>。 


图 10-3: 5 个 服务 需 的 集群 丢失 数据 


这 个 结果 非常 糟糕 ， 我 们 丢失 了 某 些 状态 信息 ， 而 且 状 态 副 本 与 
客户 端 所 看 到 的 <1，4>、<1，5>、<1，6> 也 不 再 一 致 。 为 了 避免 这 个 
问题 ，ZooKeeper 提 供 了 重 配置 操作 ， 这 意味 着 运 维 人 员 并 不 需要 手工 


进行 重 配 置 操 作 而 导致 状态 信息 的 破坏 ， 而 且 ， 我 们 也 不 需要 停止 任 
何 服务 。 


重 配置 不 仅 可 以 让 我 们 改变 集群 成 员 配 置 ， 还 可 以 修改 网 络 参数 
配置 ， 因 为 ZooKeeper 中 配置 信息 的 变化 ， 需 要 将 重 配置 参数 与 静态 的 
配置 文件 分 离 ， 单 独 保存 为 一 个 配置 文件 并 目 动 更 新 该 文件 。 
dynamicConfigFile 参 数 和 链接 这 两 个 配置 文件 。 


注意 : 我 生 否 可 以 使 用 动态 配置 选项 ? 


该 功能 已 经 在 Apache 仓 库 的 主干 分 文中 被 添加 ， 主 干 的 目标 版 本 
号 为 3.5.0， 不 过 并 不 保证 必然 是 这 个 版 本 号 发 布 该 功能 ， 这 取决 于 主 
干 的 进展 情况 ， 在 本 书 完成 时 ， 最 新 的 版 本 号 为 3.4.5， 而 该 版 本 中 尚 
未 加 入 该 功能 。 


我 们 使 用 动态 配置 之 前 ， 回 顾 一 下 之 前 的 配置 文件 : 


tickTime=2000 

initLimit=10 

syncLimit=5 

dataDir=./data 
dataLogDir=./txnlog 
clientPort=2182 

server .1=127.0.0.1:2222:2223 
server .2=127.0.0.1:3333:3334 
server .3=127.0.0.1:4444:4445 


现在 ， 我 们 将 配置 文件 修改 为 动态 配置 方式 : 


tickTime=2000 
initLimit=10 


SyncLimit=5 

dataDir=./data 
dataLogDir=./txnlog 
dynamicConfigFile=./dyn.cfg 


注意 ， 我 们 甚至 从 配置 文件 中 删除 了 clientPort 参 数 配 置 ， 在 
dyn.cfg 文 件 由 服务 需 项 的 配置 组 成 ， 同 时 还 多 了 一 些 配置 ， 服 务 左 项 
的 配置 形式 如 下 : 


server.id=host:n:n[:role];[client address:]client port 


与 正 稼 的 配置 文件 一 样 ， 列 出 了 每 个 服务 古 的 主机 和 名 和 奖 口 号 用 
于 法 定 人 数 和 和 群 首选 举 消 轧 。role 选 项 必须 为 participant 或 observer， 如 
果 名 上 略 role 选 项 ， 默 认为 participant， 我 们 还 指定 了 dlient_port (用 于 客 
户 端 连接 的 服务 器 端口 号 ) ， 以 及 该 服务 器 需要 绑 定 的 特定 网 络 接口 
地 址 ， 因 为 我 们 从 静态 配置 文件 中 删除 了 clientPort 参 数 ， 所 以 我 们 在 
这 里 添加 该 配置 。 


因此 ， 最 终 我 们 的 dyn.cfg 配 置 文件 如 下 所 示 : 


server .1=127.0.0.1:2222:2223: participant ; 2181 
server .2=127.0.0.1:3333:3334: participant ; 2182 
server .3=127.0.0.1:4444:4445: participant ; 2183 


我 们 使 用 重 配 置 之 前 必须 先 创 建 这 些 文件 ， 一 旦 这 些 文 件 就 绪 ， 
我 们 惑 可 以 通过 reconfig 操 作 来 重新 配置 一 个 集群 ， 该 操作 可 以 增 量 或 
全 量 (整体 ) 地 进行 更 新 操作 。 


增 量 的 重 配 置 操 作 将 会 形成 两 个 列表 : 符 删 除 的 服务 器 列表 ， 行 
添加 的 服务 器 项 的 列表 。 行 删除 的 服务 器 列表 仅仅 是 一 个 喜 号 分 隅 服 
务 郁 ID 列表 ， 待 添加 的 服务 郁 项 列表 为 逗号 分 隔 的 服务 问 项 列表 ， 每 
个 服务 硕 项 的 形式 为 动态 配置 文件 中 所 定义 的 形式 。 例 如 : 


reconfig -remove 2,3 -add \ 
server .4=127.0.0.1:5555:5556: participant ; 2184, \ 
server .5=127.0.0.1:6666:6667: participant; 2185 


该 命令 将 会 删除 服务 器 2 和 3， 添 加 服务 器 4 和 和 5。 该 操作 成 功 执行 
还 需要 满足 某 些 条 件 ， 首 先 ， 与 其 他 ZooKeeper 操 作 一 样 ， 原 配置 中 法 
定 人 数 必须 处 于 活动 状态 ， 其 次 ， 新 的 配置 文件 中 构成 的 法 定 人 数 也 
必须 处 于 活动 状态 。 


注意 ;通过 重 配置 从 一 个 服务 右 到 多 个 服务 器 


当 我 们 只 有 一 个 单独 的 ZooKeeper 服 务 右 ， 该 服务 器 以 独立 模式 运 
行 ， 这 种 情况 稍微 复杂 一 些 ， 因 为 重 配 置 不 仅 改变 了 法 定 人 数组 成 的 
元 素 ， 同 时 还 会 切换 原来 的 服务 器 模式 从 独立 模式 到 仲裁 模式 ， 所 
以 ， 我 们 不 允许 以 独立 模式 运行 重 配 置 操 作 ， 只 有 在 仲裁 模式 时 才 可 
以 使 用 重 配置 功能 。 


ZooKeeper 一 次 允许 一 个 配置 的 变更 操作 请 求 ， 当 然 ， 配 置 操作 会 
非常 快 地 被 处 理 ， 而 且 重 新 配置 也 很 少 发生 ， 所 以 并 发 的 重 配置 操作 
应 该 不 是 什么 问题 。 


我 们 还 可 以 使 用 -file 参 数 来 指定 一 个 新 的 成 员 配 置 文件 来 进行 一 次 
全 量 更 新 。 例 如 : reconfig-file newconf 命 令 会 产生 如 上 面 命令 一 样 的 增 
量 操作 结果 ，newconf 文 件 为 : 


server ,1=127.0.0.1:2222:2223:participant ; 2181 
server .4=127.0.0.1:5555:5556: participant ; 2184 
server .5=127.0.0.1:6666:6667: participant ; 2185 


通过 -members 参 数 ， 后 跟 服务 器 项 的 列表 信息 ， 可 以 代替 -fle 参 数 
全 


进行 全 量 更 新 配置 操作 。 


最 后 ， 所 有 形式 的 reconfig 的 为 重新 配置 提供 了 条 件 ， 如 果 通 过 -v 
参数 提供 了 配置 版 本 号 ，reconfig 命 令 会 在 执行 前 确认 配置 文件 当前 的 
版 本 号 是 否 匹配 ， 只 有 匹配 才 会 成 功 执行 。 你 可 以 通过 读 
取 /zookeeperconfig 节 点 来 获取 当前 配置 的 版 本 号 ， 或 通过 zkCli 工 具 来 
调用 config 获 取 配 置 版 本 号 信息 。 


注意 : 手动 重 配 置 


如 有 果 你 真 想 手动 进行 重 配置 操作 (也 许 你 使 用 旧版 本 的 
ZooKeeper) ， 最 简单 最 安全 的 方式 是 ， 每 次 在 停止 整个 服务 器 和 启动 
ZooKeeper 集 群 服务 ( 即 让 群 首 建 立 起 来 ) 时 只 进行 一 个 配置 变更 操 
作 。 


客户 端 连 接 串 的 管理 


我 们 已 经 讨论 了 ZooKeeper 服 务 器 的 配置 问题 ， 但 对 于 客户 端 也 涉 
及 一 些 相 关 的 配置 问题 ， 连 接 串 。 客 户 端 连接 串 常 党 表示 为 辟 号 分 隔 
的 host: port 对 ， 其 中 host 为 主机 名 或 IP 地 址 ， 通 过 主机 名 可 以 提供 服务 
虱 实 际 IP 与 所 访问 的 服务 器 的 标识 符 之 间 的 间接 层 的 对 应 天 系 。 例 
如 ， 运 维和 人 员 可 以 替换 ZooKeeper 服 务 为 男 一 个 ， 而 不 需要 改变 客户 端 
的 配置 。 


不 过 ， 该 灵活 性 有 一 定 限制 ， 运 维 人 员 可 以 改变 组 成 集群 的 服务 
堪 机 需 ， 但 不 能 改变 客户 端 所 使 用 的 服务 右 。 例 如 ， 如 独 10-4 所 未 ， 
ZooKeeper 可 以 通过 重 配置 很 简单 地 将 集群 从 三 个 服务 大 扩 展 到 五 个 服 
务 器 ， 但 客户 端 仍然 使 用 三 个 服务 器 ， 而 不 是 五 个 。 


29999 


zk-a:2222,zk-b:2222,zk-c:2222 


图 10-4: 集群 从 三 个 到 五 个 服务 右 时 ， 客 户 端的 重 配置 


另 一 种 方式 可 以 使 ZooKeeper 的 服务 器 数量 更 具 弹 性 ， 而 不 需要 改 
变 客 户 问 的 配置 。 对 主机 名 我 们 很 自然 地 想到 可 以 解析 为 一 个 PP 地 
址 ， 但 实际 上 ， 一 个 主机 名 可 以 解析 为 多 个 地 址 ， 如 果 主 机 名 解析 为 
多 个 IP 地 址 ，ZooKeeper 就 可 以 连接 到 其 中 的 任何 地 址 ， 在 图 10-4 中 ， 
假设 服务 器 zk-a、zk-b 和 zk-c， 解 析 为 三 个 独立 的 耻 地 址 : 10.0.0.1、 
10.0.0.2 和 10.0.0.3， 现 在 假设 你 通过 DNS 配置 了 一 个 单独 的 主机 名 : 
zk， 解 析 为 这 三 个 下 地 址 ， 你 只 需要 修改 DNS 的 解析 地 址 数量 ， 之 后 局 
动 的 任何 客户 端 都 可 以 访问 这 五 个 服务 器 ， 如 图 10-5 所 示 。 


在 使 用 主机 名 解析 为 多 个 地 址 方式 时 ， 还 有 一 些 注意 事项 。 首 
先 ， 所 有 的 服务 痊 必 须 使 用 相同 的 客户 问 闯 口号 ;其 次 ， 主 机 名 解析 
只 有 在 创建 连接 时 才 会 发 生 ， 所 以 已 经 连接 的 客户 端 无 法 知道 最 新 的 
名 称 解析 ， 只 能 对 新 创建 的 ZooKeeper 客 户 端 生效 。 


客户 端的 连接 还 可 以 包含 路 径 信息 ， 该 路 径 指示 了 解析 路 径 名 称 
时 的 根 路 径 ， 其 行为 与 UNIX 系 统 中 的 chroot 命 令 相似 ， 而 且 在 
ZooKeeper 社 区 中 你 也 会 经 常 昕 到 人 们 以 “chroot”* 来 称呼 这 个 功能 。 例 
如 ， 如 果 客 户 端 的 连接 捉 为 zkx: 2222/app/superApp， 当 客户 端 连接 并 执 
行 getData ("/a.dat"，...) 操作 上 时， 实际 客户 端 会 得 
到 /app/superApp/a.datT 点 的 数据 信息 《注意 ， 连 接 串 中 指示 的 路 径 必 
须 存 在 ， 而 不 会 为 你 创建 连接 串 中 所 指示 的 路 径 ) 。 


zk:2222 


110-5: 集群 从 三 个 到 五 个 服务 器 时 ， 使 用 DNS 对 客户 端的 重 配置 


在 连接 种 中 添加 路 径 信息 的 动机 在 于 一 个 ZooKeeper 集 群 为 多 个 应 
用 程序 提供 服务 ， 这 样 不 需要 要 求 每 个 应 用 程序 添加 其 路 径 的 前 缀 信 
恩 。 每 个 应 用 程序 可 以 类 似 名 称 独 享 似 的 使 用 ZooKeeper 集 群 ， 运 维 人 
员 可 以 按 他 们 的 期 望 来 划分 命名 空间 。 图 10-6 的 示例 展示 了 不 同 的 连接 
串 可 以 为 客户 端 应 用 程序 提供 不 同 的 根 入 口 点 。 


注意 : TERR AYES 


当 管 理 客 户 端 连接 串 时 ， 注 意 一 个 客户 端的 连接 串 永 远 不 要 包含 
两 个 不 同 的 ZooKeeper 集 群 的 主机 名 ， 这 是 最 快速 也 是 最 简单 导致 脑 裂 
问题 的 方式 。 


10.4 ”配额 管理 


ZooKeeper 的 男 一 个 可 配置 项 为 配额 ，ZooKeeper 初 步 提 供 了 znode 
节点 数量 和 节点 数据 大 小 的 配额 管理 的 支持 。 我 们 可 以 通过 配置 来 指 
定 某 个 子 树 的 配额 ,该 子 树 束 会 被 跟踪 ， 如 果 该 子 树 超过 了 配额 限 
制 ， 就 会 记录 一 条 警告 日 志 ， 但 操作 请 求 还 是 可 以 继续 执行 。 此 时 ， 
ZooKeeper 会 检测 是 否 超 过 了 某 个 配额 限制 ， 但 不 会 阻止 处 理 流程 。 


connect with 
zk:2181 


connect with connect with 
2k:2181/apps/app1 2k:2181/apps/app3 


图 10-6: 通过 连接 串 指 定 ZooKeeper 客 户 端的 根 世 点 


配额 管理 的 跟踪 功能 通过 /zookeeper 子 树 完 成 ， 所 以 应 用 程序 不 能 
在 这 个 子 树 中 存储 自己 的 数据 ， 这 个 子 树 只 应 该 保留 给 ZooKeeper 使 
用 ， 而 /zookeeper/quota 广 点 就 是 ZooKeeper 管 理 配额 的 节点 。 为 了 对 应 
用 程序 /application/superApp 创 建 一 个 配额 项 ， 我 们 需要 
在 /application/superApp 节 点 下 创建 两 个 子 下 点 zookeeper_limits 和 


zookeeper_stats ° 


对 于 znode 节 点 数量 的 限制 我 们 称 之 为 count， 而 对 于 布点 数据 大 小 
的 限制 则 为 bytes。 在 zookeeper_limits 和 zookeeper_stats 信 点 中 通过 
count=n，bytes=m 来 指定 配额 ， 其 中 n 和 m 均 为 整数 ， 在 
zookeeper_limits 闻 点 中 ，n 和 m 表 示 将 会 触发 警告 的 级 别 GRACE 
为 -1 就 不 会 触发 警告 信息 ) ， 在 zookeeper_stats 借 点 中 ，n 和 mm 分别 表示 


当前 子 树 中 的 节 反 数量 和 子 树 广 点 的 数据 信息 的 当前 大 小 。 
注意 : 对 元 数据 的 配额 跟踪 


对 于 子 树 节 后 数据 的 子 市 数 配额 跟 踩 功 能， 并 不 会 包含 每 个 znode 
节 扩 的 元 数据 的 开销 ， 元 数据 的 大 小 大 约 100 子 三 ， 所 以 如 来 每 个 市 扩 
的 数据 大 小 都 比较 小 ， 跟 踩 znode 下 点 的 数量 比 跟 踩 znode 数 据 的 大 小 更 
加 实用 。 


我 们 可 以 使 用 zkCli 来 创建 /application/superApp 节 点 ， 并 配置 配额 
限制 : 


[zk: localhost:2181(CONNECTED) 2] create /application "" 

Created /application 

[zk: localhost:2181(CONNECTED) 3] create /application/superApp super 
Created /application/superApp 

[zk: localhost:2181(CONNECTED) 4] setquota -b 10 /application/superApp 
Comment: the parts are option -b val 10 path /application/superApp 

[zk: localhost:2181(CONNECTED) 5] listquota /application/superApp 
absolute path is /zookeeper/quota/application/superApp/zookeeper_limits 
Output quota for /application/superApp count=-1, bytes=10 

Output stat for /application/superApp count=1, bytes=5 


我 们 创建 了 /application/superApp 节 点 ， 且 该 市 点 的 数据 为 5 个 字 
(一 个 单词 “super”) ， 之 后 我 们 为 /application/superApp 节 点 设置 了 配 
额 限制 为 10 个 字 节 ， 当 我 们 列 出 /application/superApp 节 点 配置 限制 
我 们 发 现 数据 大 小 的 配额 还 有 5 个 字 节 的 余 量 ， 而 我 们 并 未 对 这 
子 树 设置 znode 节 点 数量 的 配额 限制 ， 因 为 配额 中 count 的 值 为 -1。 


如 果 我 们 发 送 命令 
get/zookeeperquota/application/superApp/zookeeper_stats， 我 们 可 以 直接 
访问 该 节点 数据 ， 而 不 需要 使 用 zkCli 工 具 ， 事 实 上 ， 我 们 可 以 通过 创 
建 或 删除 这 些 节 点 来 创建 或 删除 配额 配置 。 如 果 我 们 运行 以 下 命令 


create /application/superApp/lotsOfData ThisIsALotofData 


RN wie te A eS Bla Mae: 


Quota exceeded: /application/superApp bytes=21 limit=10 


10.5 “多 租赁 配置 


配额 ， 提 供 了 配置 选项 中 的 某 些 限 制 措 施 ， 而 ACL 策 略 更 值得 我 
们 考虑 如 何 使 用 ZooKeeper 来 服务 于 多 租赁 (multitenancy) 情况 。 满 
足 多 租赁 的 一 些 令 人 信服 的 原因 如 下 : 


.为 了 提供 可 靠 的 服务 器 ，ZooKeeper 服 务 器 需要 运行 于 专用 的 硬 
件 设 备 之 上 ， 跨 多 个 应 用 程序 共享 这 些 硬 件 设备 更 容易 符合 资本 投资 
的 期 部。 


-我们 发 现 ， 在 大 多 数 情 况 下 ，ZooKeeper 的 流量 非常 具有 突 发 
性 : 配置 或 状态 的 变化 的 突 发 操作 会 导致 大 量 的 负载 ， 从 而 寻 致 服务 
长 时 间 的 不 可 用 。 如 有 条 是 没有 什么 关联 的 应 用 程序 的 突 发 操作 ， 将 这 
些 应 用 程序 共 至 这 个 服务 器 更 能 有 效 利用 人 硬件 资源 。 不 过 还 是 要 注意 
失 联 事件 发 生 时 所 产生 的 峰值 ， 某 些 写 得 不 太 规 范 的 应 用 程序 在 处 理 
Disconnected 事 件 时 ， 产 生 的 负载 高 于 其 所 需要 的 资源 。 


对 于 硬件 资源 的 分 挫 ， 我 们 可 以 获得 更 好 的 故障 容错 性 ， 如 采 两 
个 应 用 程序 ， 从 之 前 各 目 三 个 服务 器 的 集群 中 转移 到 一 个 由 5 全 服务 大 
组 成 的 集群 ， 总 量 上 所 使 用 的 服务 器 更 少 了 ， 对 ZooKeeper 也 可 以 容 肪 
两 合 服务 万 的 故障 ， 而 不 是 之 前 的 只 能 容 仿 一 个 服务 器 故障 。 


当 服务 于 多 租赁 的 情况 下 时 ， 运 维 人 员 一 般 会 将 数据 树 分 割 为 不 
同 的 子 树 ， 每 个 子 树 为 某 个 应 用 程序 所 专用 。 开 发 人 员 在 设计 应 用 程 
序 时 可 以 考虑 在 其 所 用 的 znode 市 点 前 添加 前 经 ， 但 还 有 一 个 更 简单 的 
方法 来 隔离 各 个 应 用 程序 : 在 连接 串 中 指定 路 径 部 分 ，10.3 世 中 介绍 
了 这 方式 。 每 个 应 用 程序 的 开发 人 员 在 进行 应 用 程序 的 开发 时 ， 束 像 
使 用 专用 的 ZooKeeper 服 务 一 样 。 如 果 运 维 人 员 决 定 将 应 用 程序 部 署 到 
根 路 径 /applicationmnewapp 之 下 ， 应 用 程序 可 以 使 用 host: 
portapplicationmnewapp 连 接 串 ， 而 不 仅仅 是 host: port， 通 过 这 种 方 
式 ， 对 应 用 程序 所 呈现 的 犹如 使 用 专用 服务 一 样 ， 与 此 同时 ， 运 维 人 
员 还 可 以 为 /application/newapp 节 点 配置 配额 限制 ， 以 便 跟 踊 应 用 程序 
的 空间 使 用 情况 。 


10.6 ”文件 系统 布局 和 格式 


我 们 已 经 讨论 过 快照 、 事 务 日 志 以 及 存储 设备 等 问题 ， 本 市 中 ， 
我 们 将 会 讨论 这 些 信息 在 文件 系统 中 如 何 配 置 。 学 习 本 市 中 所 涉及 的 
概念 ， 需 要 对 9.6 市 中 所 讨论 的 这 些 概念 具有 较 好 的 理解 ， 以 便 随时 可 
以 回顾 相关 的 知识 点 。 


我 们 之 前 已 经 介绍 了 ， 数 据 存 储 有 两 类 : 事务 日 志文 件 和 快照 文 
件 。 这 些 文件 均 以 普通 文件 的 形式 保存 到 本 地 文件 系统 中 ， 在 进行 关 
链 路 径 的 事务 处 理 时 就 会 写 入 事务 日 志文 件 ， 所 以 我 们 强烈 建议 将 这 
些 文件 保存 到 一 个 专用 存储 设备 上 (事实 上 我 们 已 经 多 次 提 到 这 个 间 
题 ， 因 为 这 对 于 吞吐 能 力 和 延迟 的 一 致 性 问题 非常 重要 ) ， 不 使 用 专 
用 存储 设备 保存 事物 日 志文 件 并 不 会 导致 任何 正确 性 相关 的 问题 ， 却 
会 影响 性 能 。 在 虚拟 化 环境 中 ， 也 许 无 法 获得 专用 存储 设备 。 对 于 快 
照 文件 并 不 要 求 存储 于 专用 存储 设备 上 ， 因 为 该 文件 由 后 台 线 程 慢 慢 
JA” 


快照 文件 将 会 被 写 入 到 DataDir 参 数 所 指定 的 目 孙 中 ， 而 事务 日 志 
文件 将 会 被 写 入 到 DataLogDir 参 数 所 指定 的 目 隶 中。 首先， 我 们 看 一 
下 事务 日 志 目 录 中 的 文件 ， 如 末 你 列 出 该 目录 的 信息 ， 你 会 发 现 只 有 
一 个 子 目录 ， 名 为 version-2， 我 们 对 日 志和 快照 的 格式 只 做 出 了 一 次 


重大 改进 ， 当 我 们 改变 其 格式 后 ， 我 们 发 现 ， 将 数据 通过 文件 版 本 进 
行 分 离 ， 对 于 处 理 版 本 间 的 数据 迁移 是 非常 有 用 的 。 


10.61 JAHT 


让 我 们 看 一 看 在 运行 一 些小 测试 后 的 目 隶 内容， 我 们 发 现 有 两 个 
事务 日 志文 件 : 


-rw-r--r-- 1 breed 67108880 Jun 5 22:12 1o0g.100000001 
-rw-r--r-- 1 breed 67108880 Jul 15 21:37 log.200000001 


我 们 可 以 仔细 观察 这 些 文件 信息 。 首 先 ， 考 虑 到 测试 很 少 ， 而 这 
些 文 件 却 非常 大 (每 个 都 超过 6MB) ; 其 次 这 些 文 件 名 的 后 级 中 均 有 
一 个 很 大 数字 。 


ZooKeeper 为 文件 预 分 配 大 的 数据 块 ， 来 避免 每 次 写 入 所 市 来 的 文 
件 增长 的 元 数据 管理 开销 ， 如 果 你 通过 对 这 些 文件 进行 十 六 进 制 转 储 
打印 ， 你 会 发 现 这 些 文件 中 全 部 以 null 字 符 (0) 填充 ， 只 有 在 最 开始 
部 分 有 少量 的 二 进 制 数据 ， 服 务 絮 运行 一 段 时 间 后 ， 其 中 的 null 字 符 
逐渐 被 日 志 数 据 奉 换 。 


日 志文 件 中 包含 事务 标签 zxid， 但 为 了 城 轻 恢复 负载 ， 而 且 为 了 
快速 查找 ， 每 个 日 志文 件 的 后 绥 为 该 日 志文 件 中 第 一 个 zxid 的 十 六 进 
制 形式 。 通 过 十 六 进 制 表 示 zxid 的 一 个 好 人 处 就 古 你 可 以 快速 区 分 zxid 中 


时 间 稚 部 分 和 计数 亏 部 分 ， 所 以 在 之 前 例子 中 的 第 一 个 文件 的 时 间 戳 
为 1， 而 第 二 个 文件 的 时 间 戳 为 2。 


不 过 ， 我 们 还 想 继 续 看 一 看 文件 中 保存 了 什么 内 容 ， 对 于 问题 诊 
上 晰 也 非常 有 帮助 。 有 了 时， 开发 人 员 宣 称 ZooKeeper 丢 失 了 某 些 znode 贡 
点 信息 ， 此 时 只 有 通过 碍 找事 务 日 志文 件 才 可 以 知道 客户 端 具体 删除 


eh AB EE TT A 


我 们 可 以 通过 一 下 命令 来 得 看 第 二 个 日 志文 件 : 


java -cp $ZK_LIBS org.apache.zookeeper.server.LogFormatter version-2 / 
log. 200000001 


这 个 命令 的 输出 信息 如 下 : 


7/15/13... session 0x13...00 cxid 0x0 zxid 0x200000001 createSession 30000 
7/15/13... session 0x13...00 cxid 0x2 zxid 0x200000002 create 
"/test,#22746573746 ... 

7/15/13... session ©x13...00 cxid 0x3 zxid 0x200000003 create 


"/test/c1,#6368696c ... 
7/15/13... session ©x13...00 cxid 0x4 zxid 0x200000004 create 
"/test/c2,#6368696c ... 
7/15/13... session ©x13...00 cxid 0x5 zxid 0x200000005 create 
"/test/c3,#6368696c ... 


7/15/13... session 0x13...00 cxid 0x0 zxid 0x200000006 closeSession null 


每 个 日 志文 件 中 的 事务 均 以 可 读 形式 一 行 行 地 展示 出 来 。 因 为 只 
有 变更 操作 才 会 被 记录 到 事务 日 志 ， 所 以 在 事务 日 志 中 不 会 看 到 任何 
读 事 务 操作 。 


10.6.2 ”快照 


快照 文件 的 命名 规则 与 事务 日 志文 件 的 命名 规则 相似 ， 以 下 为 之 
前 例子 中 的 服务 右 的 快照 列表 信息 : 


-rw-r--r-- 1 br33d 296 Jun 5 07:49 snapshot.0 
-rw-r--r-- 1 br33d 415 Jul 15 21:33 snapshot.100000009 


快照 文件 并 不 会 被 预 分 配 空间 ， 所 以 文件 大 小 也 更 加 准确 地 反映 
了 其 中 包含 的 数据 大 小 。 其 中 后 级 表示 快照 开始 时 当时 的 zxid 值 ， 我 
们 之 前 已 经 介绍 过 ， 快 照 文件 实际 上 为 一 个 模糊 快照 ， 直 到 事务 日 志 
重 现 之 后 才 会 成 为 一 个 有 效 的 快照 文件 。 因 此 在 恢复 系统 时 ， 你 必须 
从 快照 后 缀 的 zxid 开 始 重 现 事务 日 志文 件 ， 甚 至 更 早 的 zxid 开 始 重 现 事 


务 。 


快照 文件 中 保存 的 模糊 快照 信息 同样 为 二 进 制 格式 ， 因 此 ， 我 们 
可 以 通过 另 一 个 工具 类 来 检查 快照 文件 的 内 容 ; 


java -cp ZK_LIBS org.apache.zookeeper.server.SnapshotFormatter version-2 / 
snapshot .100000009 


这 个 命令 的 输出 信息 如 下 : 


cZxid = 0x00000000000000 
ctime = Wed Dec 31 16:00:00 PST 1969 
mZxid = O0x00000000000000 
mtime = Wed Dec 31 16:00:00 PST 1969 


pZxid = 0x00000100000002 
cversion = 1 
dataVersion = 0 
aclVersion = 0 
ephemeralOwner = 0x00000000000000 
dataLength = 0 
/sasd 
CZxid = 0x00000100000002 
ctime = Wed Jun 05 07:50:56 PDT 2013 
mZxid = 0x00000100000002 
mtime = Wed Jun 05 07:50:56 PDT 2013 
pZxid = 0x00000100000002 
cversion = 0 
dataVersion = 0 
aclVersion = 0 
ephemeralOwner = 0x00000000000000 
dataLength = 3 


只 有 每 个 节点 的 元 数据 被 转 储 打印 出 来 ， 这 样 ， 运 维 人 员 束 可 以 
知道 一 个 znode 市 点 何 时 发 生 了 变化 ， 以 及 哪个 znode 广 点 占用 了 大 量 
内 存 。 很 遗憾 ， 数 据 信息 和 ACL 策 略 并 没有 出 现在 输出 中 ， 因 此 ， 在 
进行 问题 诊断 时 ， 记 住 将 快照 中 的 信息 与 日 志文 件 的 信息 结合 起 来 分 
析 问 题 所 在 。 


10.6.3 ”时 间 玲 文件 


ZooKeeper 的 持久 状态 由 两 个 小 文件 构成 ， 它 们 是 两 个 时 间 惟 文 
件 ， 其 文件 名 为 acceptedEpoch 和 currentEpoch， 我 们 之 前 已 经 讨论 过 时 
间 鹤 的 概念 ， 而 这 两 个 文件 则 反映 了 某 个 服务 右 进 程 已 接受 的 和 正在 
处 理 的 信息 。 虽 然 这 两 个 文件 并 不 包含 任何 应 用 数据 信息 ， 但 对 于 数 
据 一 致 性 却 至 关 重 要 ， 所 以 如 果 你 在 备份 一 个 ZooKeeper 服 务 釉 的 原始 
数据 文件 时 ， 不 要 起 了 这 两 个 文件 。 


10.6.4 已 保存 的 ZooKeeper 数 据 的 应 用 


ZooKeeper 数 据 存储 的 一 个 优点 是 ， 不 管 独立 模式 的 服务 器 还 十 集 
群 方式 的 服务 器 ， 数 据 的 存储 方式 部 一 样 。 我 们 之 前 已 经 介绍 过 通过 
事务 日 志和 快照 的 合并 可 以 得 到 准确 的 数据 视图 ， 你 可 以 将 事务 日 志 
文件 和 快照 文件 拷贝 到 男 一 台 设 备 上 进行 这 些 操作 (例如 在 你 的 便携 
电脑 中 ) ， 将 这 些 文件 放 到 一 个 独立 模式 的 服务 器 下 空白 的 data 目 录 
下 ， 然 后 局 动 服务 ， 该 服务 束 会 真实 反映 出 你 所 找 贝 的 那个 服务 器 上 
的 状态 信息 。 这 项 技术 可 以 使 你 从 生产 环境 拷贝 服务 右 的 状态 信息 ， 
用 于 稍 后 的 复 碍 等 用 途 。 


同时 也 意味 着 ， 你 只 需要 简单 地 将 这 些 数 据 文件 进行 备份 ， 束 可 
以 轻易 地 完成 ZooKeeper 服 务 句 的 备份 ， 如 果 你 采用 这 种 方式 进行 备 
份 ， 还 需要 注意 一 些 问题 。 首 先 ，ZooKeeper 为 复制 服务 ， 所 以 系统 
存在 元 余 信 息 ， 如 采 你 进行 备份 操作 ， 你 只 需要 备份 其 中 一 人 台 服 务 天 
的 数据 信息 。 


当 ZooKeeper 服 务 右 认可 了 一 个 事务 ， 从 这 时 起 它 束 会 承诺 记 杂 下 
该 状态 信息 ， 你 一 定 要 记 住 这 一 点 ， 这 一 点 非常 重要 。 因 此 如 果 你 使 
用 旧 的 备份 文件 恢复 一 个 服务 占 ， 束 会 守 致 服务 如 违反 其 承诺 。 如 果 
你 刚刚 遭遇 了 所 有 服务 器 的 数据 丢失 的 情况 ， 这 可 能 不 是 什么 大 问 


题 ， 但 如 琳 你 的 集群 在 正常 工作 中 ， 而 你 将 某 个 服务 絮 还 原 为 旧 的 状 
仿 ， 你 的 行为 可 能 会 导致 其 他 服务 右 也 丢失 了 某 些 信息 。 


如 采 你 要 对 全 部 或 大 多 数 服 务 郁 进行 数据 丢失 的 恢复 操作 ， 节 好 
的 办 法 是 使 用 你 最 新 抓 取 的 状态 信息 (从 最 新 的 存活 服务 器 中 获取 的 
备份 文件 ) ， 并 在 启动 服务 器 之 前 将 状态 信息 拷贝 到 其 他 所 有 服务 器 
Pe 


10.7 ”四 字母 命令 


现在 ,我们 已 经 配置 好 服务 右 并 局 动 运行 ， 我 们 现在 需要 监控 这 
些 服 务 器 ， 因 此 需要 用 到 一 系列 四 字母 命令 。 在 3.2.2 节 中 曾经 涉及 了 
一 些 四 字母 命令 的 例子 ， 我 们 通过 telnet 工 具 连 接 后 ， 使 用 这 些 命令 查 
看 系统 状态 。 四 字母 命令 提供 的 这 一 简单 方法 ， 可 以 让 我 们 对 系统 进 
行 各 种 各 样 的 检查 。 四 字母 命令 的 主要 目标 丈 是 提供 一 个 非常 简单 的 
协议 ， 使 我 们 使 用 简单 的 工具 ， 如 telnet 或 nc， 束 可 以 完成 系统 健康 状 
况 检 查 和 问题 的 诊断 。 为 商 单 起 见 ， 四 字母 命令 的 输出 也 是 可 读 形 
式 ， 使 得 更 容易 使 用 这 些 命 


对 服务 器 添加 一 个 新 的 命令 也 很 容易 ， 命 令 列表 也 就 会 增长 。 本 
节 中 将 会 介绍 一 些 常用 的 命令 ， 对 于 最 新 的 全 部 命令 列表 信息 ， 请 参 
考 ZooKeeper 文 档 。 


ruok 


提供 “有 限 的 ) 服务 器 的 状态 信息 。 如 果 服 务 器 正在 运行 ， 就 会 
返回 imok 响 应 信息 。 事 实 上 “OK” 状 态 只 是 一 个 相对 的 概念 ， 例 如 ， 服 
务 器 运行 中 ， 虽 无 法 与 集群 中 其 他 服务 器 进行 通信 ， 然 而 该 服务 器 返 
回 的 状态 仍然 是 “OK”。 对 于 更 详细 信息 及 可 靠 的 健康 状态 检查 ， 需 要 
使 用 stat 命 令 。 


Stat 


提供 了 服务 句 的 状态 信息 和 当前 活动 的 连接 情况 ， 状 态 信息 包括 
一 些 基本 的 统计 信息 ， 还 包括 该 服务 右 当 前 是 否 处 于 活动 状态 ， 即 作 
为 群 首 或 追随 者 ， 该 服务 器 所 知 的 最 后 的 zxid 信 息 。 某 些 统计 信息 为 
累计 值 ， 我 们 可 以 使 用 srst 命 令 进行 重 置 。 


STVT 


提供 的 信息 与 stat 一 样 ， 只 是 忽略 了 连接 情况 的 信息 。 


提供 会 话 信息 ， 列 出 当前 活动 的 会 话 信息 以 及 这 些 会 话 的 过 期 时 


Zs 
间 。 该 命令 只 能 在 群 首 服务 器 上 运行 。 


列 出 该 服务 器 启动 运行 所 使 用 的 基本 配置 参数 。 


envi 


列 出 各 种 各 样 的 Java 环 境 参 数 。 


mntr 


提供 了 比 stat 命 令 更 加 详细 的 服务 露 统计 数据 。 每 行 输出 的 格式 为 
key<tab>value。 ( 群 站 服务 器 还 将 列 出 只 用 于 群 首 的 额外 参数 信 
a) 


wchs 
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wchc 

列 出 该 服务 器 所 跟踪 的 监视 点 的 详细 信息 ， 根 据 会 话 进行 分 组 。 
wchp 


列 出 该 服务 器 所 跟踪 的 监视 点 的 详细 信息 ， 根 据 被 设置 监视 点 的 
znode 广 点 路 人 径 进 行 分 组 。 


cons, crst 


cons 命 令 列 出 该 服务 器 上 每 个 连接 的 详细 统计 信息 ，crst 重 置 这 些 
连接 信息 中 的 计数 器 为 0 


10.8 ”通过 JMX 进 行 监 控 


四 字母 命令 可 以 用 于 系统 的 监控 ， 但 却 没有 提供 系统 控制 和 修改 
的 方法 ，ZooKeeper 通 过 标准 Java 管 理 协 议 ，JMX (Java 管理 扩展 ) ， 
提供 了 更 强大 的 监控 和 管理 功能 。 有 很 多 书籍 介绍 过 如 何 配置 和 使 用 
JMX， 也 有 很 多 工具 可 用 于 JMX 服 务 釉 管理 ， 本 下 中 ， 我 们 将 会 使 用 
一 个 简单 的 管理 控制 台 工 具 jconsole 来 探索 通过 JMX 管 理 ZooKeeper 功 


A5 
HE ° 


jconsole 为 Java 中 目 带 的 工具 ， 实 际 上 ， 类 似 jconsole 这 样 的 JMX 工 
具 常 常用 于 监控 远程 的 ZooKeeper 服 务 如 ， 但 出 于 说 明 的 目的 ， 我 们 将 
会 在 ZooKeeper 服 务 所 运行 的 设备 运行 该 工具 。 

首先 ， 我 们 启动 第 二 个 ZooKeeper 服 务 器 〈 即 ID 为 2 的 服务 器 ) ， 
之 后 ， 我 们 只 需要 在 命令 行 中 简单 的 输入 jconsole 命 令 就 可 以 局 动 
jconsole 工 具 ，jconsole 局 动 后 ， 你 就 会 看 到 类 似 图 10-7 中 所 示 的 窗口 。 


注意 到 其 中 带 有 “zookeeper” 名 称 的 进程 ， 对 于 本 地 进程 ，jconsole 
会 自动 发 现 可 连接 的 进程 。 


e080 Java Monitoring & Management Console 
Connection Window Help 


@00 JConsole: New Connection 


New Connection 


|) Local Process: 
| Name PID 
org.apache.zookeeper.server.quorum.QuorumPeerM... 44035 


| sun.tools.jconsole.JConsole 44040 


L Remote Process: 


Usage: <hostname>:<port> OR service:jmx:<protocol>:<sap> 


Username: Password: 


Connect | Cancel 


图 10-7: jconsole 局 动 界 面 


现在 ， 我 们 只 需要 在 列表 中 双击 该 进程 就 可 以 连接 到 ZooKeeper 进 
程 上 ， 因 为 我 们 没有 启用 SSL， 此 时 会 提示 我 们 关于 非 安 全 连接 的 选 
项 ， 单 击 非 安 全 连接 按钮 ， 之 后 屏幕 中 束 会 出 现 图 10-8 所 示 的 窗口 。 
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© © © pid: 44035 org.apache.zookeeper.server.quorum.Qu... 


SE Memory Threads | 


Time Range: | All 


-Heap Memory Usage 
20 Mb 


15 Mb 


Used 
4 13,049,744 
5.0 Mb 
一 | agAbga 


18:34 18:35 
Used: 13 Mb Committed: 85 Mb Max: 130 Mb 


-Threads 
20 


Live threads 
16 


10-8: 进程 管理 的 第 一 个 窗口 


从 这 个 界面 中 我 们 看 到 ， 我 们 可 以 通过 该 工具 获取 关于 ZooKeeper 
服务 器 的 各 种 各 样 有 趣 的 统计 信息 。JMX 文 持 通 过 MBean (托管 
Bean) 来 将 自 定义 信息 暴露 给 远程 管理 者 ， 虽 然 名 字 听 起 来 比较 策 


拙 ， 但 却 是 又 露 信息 和 操作 的 一 个 非常 灵活 的 方式 。jconsole 会 在 最 右 
侧 的 信息 标签 中 列 出 进程 暴露 的 所 有 MBean 信 息 ， 如 图 10-9 所 示 。 


e090 Java Monitoring & Management Console 
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© © © pid: 44035 org.apache.zookeeper.server.quorum.QuorumP... _ 
[4 Threads — = Classes VM Summary MBeans A] 


> C JMimplementation 

> ©) com.sun.management 

> OD java.lang 

> Djava.util.logging 

> DD log4j 

> org.apache.ZooKeeperService 


图 10-9: jconsole 中 MBean 信 息 


在 MBean 列 表 中 我 们 可 以 看 到 ZooKeeper 所 使 用 且 暴 露出 来 的 组 件 
言 息 ， 我 们 比较 关心 ZooKeeperService 的 信息 ， 因 此 我 们 双击 该 列表 


项 ， 我 们 将 会 看 到 一 个 分 级 的 列表 副本 以 及 这 些 副 本 的 信息 ， 如 果 我 
们 打开 某 些 列表 中 的 子 项 ， 我 们 会 看 到 图 10-10 所 示 的 信息 。 


@AA Java Monitoring & Management Console 


Connection Window Help 


®© O © pid: 44035 org.apache.zookeeper.server.quorum.QuorumP... 
Threads Classes 


VM Summary 


f 


> |) JMimplementation 
> |) com.sun.management 
> (B java.lang 
> (B java.util.logging 
> 0 log4j 
Morg.apache.ZooKeeperService 
了 @® ReplicatedServer_id2 
vV Attributes 
Name 
QuorumSize 
v ® replica.1 
> Attributes 
v ® replica.2 
> Attributes 
> @ LeaderElection 
了 ® replica.3 
> Attributes 


图 10-10: jconsole 中 关于 服务 器 2 的 信息 


通过 浏览 re ee 我 们 注意 到 这 些 信息 中 还 包括 其 他 副本 


的 信息 ， 但 只 是 一 些 通信 信息 ， 因 为 服务 器 2 对 其 他 副本 所 知 信息 并 不 


， 所 以 服务 右 2 无 法 展示 更 多 其 他 副本 信息 ， 而 服务 紫 2 很 了 7 解 目 己 
的 信息 ， 所 以 它 可 以 暴露 更 多 的 信息 。 


当 我 们 启动 服务 器 1， 服 务 器 2 就 可 以 与 服务 器 1 构成 一 个 法 定 人 
数 ， 此 时 我 们 就 可 以 看 到 服务 器 2 的 更 多 信息 。 启 动 服务 器 1， 之 后 再 
次 通过 jconsole 检 查 服务 器 2 信息 。 图 10-11 展 示 了 通过 JMX 暴 露 的 一 些 
额外 信息 ， 我 们 可 以 看 到 服务 器 2 当前 角色 为 追随 者 ， 我 们 还 可 以 看 到 
数据 数 的 信息 。 


图 10-11 还 展示 了 服务 右 1 的 一 些 信息 ， 我 们 看 到 ， 服 务 胡 1 的 角色 
为 群 站 角色， 同时 还 有 一 些 额 外 信息 ， 仪 在 群 自 服务 句 中 ， 
FollowerInfo 中 还 会 展示 追随 着 的 列表 。 当 我 们 点击 该 按钮 ， 我 们 会 看 
到 连接 到 服务 器 1 的 其 他 ZooKeeper 服 务 器 的 原始 列表 信息 。 


e080 Java Monitoring & Management Console 
Connection Window Help 


®© © © pid: 44201 org.apache.zookeeper.server.quorum.QuorumPeerMain /tmp/z1/z1.cfg 
Overview Memory Threads Classes VM Summary < 和 > | 


® replica.1 Attribute values 
> Attributes | Name Value 


v ® Leader AvgLatency 1 
> Attributes EphemeralNodes java.lang.String[1] 
Y Operations en 7 
I stlatency 
fol rinto LastOperation PING 
resetLatency LastResponseTime Tue Jul 30 18:48:32 PDT 2... 
resetMaxLatency LastZxid 0x300000002 
resetStatistics MaxLatency 15 
v B Connections MinLatency 0 
¥ a "0:0:0:0:0:0:0:1%0" E ah Af 
了 ® 0x1403260ea690000 
: PacketsSent 12 
> Sessionld 0x1403260ea690000 
v Operations SessionTimeout 30000 
terminateSession SourcelP 0:0:0:0:0:0:0:1%0:55477 
terminateConnectior StartedTime Tue Jul 30 18:46:52 PDT 2... | 


resetCounters 


| Refresh 


图 10-11: jconsole 中 关于 服务 器 1 的 信息 


到 目前 为 止 ， 我们 看 到 相 比 四 字母 命令 ， 通 过 JMX 所 看 到 的 信息 
更 加 优 关 直观 ， 但 是 我 们 还 没有 看 到 有 什么 新 功能 ， 现 在 让 我 们 看 看 
JMX 可 以 做 到 而 四 字母 命令 无 法 做 到 的 功能 。 局 动 zkCli 脚 本 工具 ， 连 
接 到 服务 器 1， 之 后 我 们 运行 以 下 命令 : 


create -e /me "foo" 


通过 该 命令 ， 我 们 会 创建 一 个 临时 性 的 znode 市 点 ， 图 10-11 所 示 的 
服务 器 1 的 JMX 信 息 中 ， 我 们 可 以 看 到 出 现 了 一 个 关于 连接 的 新 信息 


项 ， 连 搂 的 属性 中 列 出 了 各 种 各 样 的 信息 ， 这 些 信息 对 于 我 们 调试 运 
行 问题 非常 有 用 。 这 个 视图 中 ， 我 们 还 看 到 两 个 有 意思 的 操作 : 


terminateSession 和 terminateConnection ° 
terminateConnection 控 作 会 天 闭 ZooKeeper 客 户 问 到 服务 絮 之 间 的 连 


接 ， 而 会 话 依 然 处 于 活路 状态， 所 以 此 时 客户 端 还 可 以 重新 连接 到 男 
一 个 服务 右 ， 客 户 端 会 收 到 失去 连接 的 事件 ， 但 可 以 轻易 恢复 。 


与 之 相反 ，terminateSession 操 作 会 声明 会 话 已 经 死亡 ， 客 户 端 与 服 
务 器 之 间 的 连接 将 会 被 关闭 ， 且 会 话 也 将 因 过 期 而 中 止 ， 客 户 端 也 不 
能 再 使 用 这 个 会 话 与 其 他 服务 器 建立 连接 。 因 此 ， 使 用 terminateSession 
操作 时 需要 小 心 ， 因 为 该 操作 会 在 会 话 超时 之 前 就 导致 会 话 过 期 ， 所 
以 在 该 进程 自己 发 现 过 期 前 ， 其 他 进程 可 能 已 经 发 现 了 该 进程 的 会 话 
死亡 的 情况 。 


远程 连接 


JMX 代 理 铝 运行 于 ZooKeeper 服 务 合 的 JVM 之 中 ， 如 果 连 接 远 程 的 
ZooKeeper 服 务 器 ， 我 们 需要 配置 好 JMX 代 理 器 。 对 与 远程 连接 的 JMX 
协议 有 若干 参数 需要 配置 ， 本 方 中 ， 我 们 展示 了 一 种 JMX 的 配置 方 
式 ， 来 看 看 JMX 提 供 了 什么 样 功 能 。 如 果 你 在 生产 环境 使 用 JMX， 你 
能 需要 使 用 另 一 种 JMX 配 置 一 一 具体 参考 如 何 配置 更 高 级 的 安全 功 


Bo 


可 


IO 


对 JMX 的 配置 可 以 通过 系统 属性 的 方式 进行 配置 ， 在 我 们 用 于 启 
动 ZooKeeper 服 务 器 的 zkServer.sh 脚 本 中 ， 我 们 使 用 
SERVER_JVMFLAGS 环 境 变 量 来 配置 这 些 系 统 属 性 。 


例如 ， 我 们 以 下 面 的 配置 局 动 服 务 ， 我 们 束 可 以 远程 连接 服务 器 3 
的 55555 端 口 。 
SERVER_JVMFLAGS="-Dcom,sun.management .jmxremote .password.file=passwd \ 
-Dcom.sun.management.jmxremote.port=55555 \ 
-Dcom.sun.management.jmxremote.ssl=false \ 


-Dcom.sun.management .jmxremote.access.file=access" 
_path_to_zookeeper_/bin/zkServer.sh start _path_to_server3.cfg_ 


系统 属性 参数 中 用 到 了 密码 文件 和 访问 控制 文件 ， 这 些 文件 的 格 
式 非 常 简单 。 首 移 ， 创 建 passwd 文 件 ， 方 式 如 下 : 


# user password 
admin <password> 


注意 ， 密 码 文 件 中 的 密码 信息 为 明文 保存 ， 因 此 只 能 给 密码 文件 
的 所 有 考分 配 读 写 权 限 ， 如 来 不 这 样 做 ，Java 束 无 法 局 动 服务 。 同 时 ， 
我 们 关闭 了 SSL 功 能 ， 这 意味 着 密码 信息 在 网 络 上 会 以 明文 的 方式 进行 
传输 ， 如 果 我 们 需要 更 强 的 安全 级 别 ，JMX 也 提供 了 更 强 有 力 的 选 
项 ， 但 这 些 已 经 超出 本 书 所 涉及 的 范围 。 


对 于 访问 控制 文件 ， 我 们 将 会 给 admin 用 户 赋予 readwrite 权 限 ， 创 
建 该 文件 的 方式 如 下 : 


admin readwrite 


eee 


10.9 工具 


在 ZooKeeper 的 发 行 包 中 提供 了 很 多 工具 和 软件 ， 而 有 些 工具 或 软 
件 则 单独 发 布 ， 我 们 之 前 已 经 提 到 过 日 志 格 式 化 软件 和 Java 中 的 JMX 
工具 。 在 ZooKeeper 发 行 包 的 contrib 目 录 中 ， 你 可 以 找到 一 些 软 件 ， 这 
些 软件 可 以 帮 你 集成 ZooKeeper 到 其 他 的 检测 系统 中 去 。 我 们 列 出 了 一 


部 分 最 受 欢 迎 的 软件 或 工具 : 


:通过 C 绑 定 实现 的 Pearl 和 Python 语言 的 绑 定 库 。 
:ZooKeeper 日 志 可 视 化 的 软件 。 


一 个 基于 网 页 的 集群 节点 浏览 和 ZooKeeper 数 据 修改 功能 的 软 


:ZooKeeper 中 自 带 的 zktreeutil 和 guano 均 可 以 从 GitHub 下 载 。 这 些 
软件 可 以 对 ZooKeeper 的 数据 进行 导入 和 导出 操作 。 


:zktop， 也 可 以 从 GitHub 下 载 ， 该 软件 监控 ZooKeeper 的 人 负载， 并 
提供 Unix 的 top 命 令 类 似 的 输出 。 


.ZooKeeper 冒 烟 测 试 ， 可 以 从 GitHub 上 下 载 。 该 软件 对 ZooKeeper 
集群 提供 了 一 个 简单 的 冒 烟 测试 客户 端 ， 这 个 工具 对 于 开发 人 员 熟 悉 


ZooKeeper 非 常 不 销 。 


当然 ， 这 些 并 不 是 所 有 工具 和 软件 的 详细 清单 ， 还 有 很 多 已 经 开 
发 的 强大 工具 和 软件 不 在 ZooKeeper 的 发 行 包 之 中 。 如 果 你 是 
ZooKeeper 运 维和 人 员 ， 可 以 在 你 的 环境 中 多 壬 试 各 种 各 样 的 工具 ， 这 样 
做 对 你 非常 有 意义 。 


10.10 4h% 


虽然 ZooKeeper 非 常 容易 上 手 ， 但 是 在 你 的 环境 中 还 是 有 很 多 参数 
需要 微调 ，ZooKeeper 的 可 靠 性 和 性 能 取决 于 正确 的 配置 ， 因 此 了 解 
ZooKeeper 征 如 何 工 作 的 以 及 各 个 参数 的 具体 含义 非常 重要 。 如 采 参 数 
中 的 时 间 、 法 定 人 数 (quorum) 配置 合理 ，ZooKeeper 可 以 适应 很 多 
种 网 络 拓扑 结构 。 虽 然 手 工 修改 zooKeeper 的 成 员 信息 非常 危险 ， 但 通 
过 ZooKeeper 中 提供 reconfig 操 作 束 非常 测 单 。 现 在 有 很 多 工具 可 以 俏 
化 你 的 工作 ， 所 以 花 点 时 间 多 挖掘 一 些 我 们 没有 介绍 到 的 工具 。 
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等 。 他 帮助 启动 了 由 Apache 软 件 基金 会 主办 的 项 目 如 Pig、ZooKeeper 
和 BookKeeper 。 


封面 介绍 


本 书 封面 上 的 动物 是 欧洲 野猫 〈 斑 猫 ， 学 名 : Felis silvestris) ， 
这 十 一 种 栖 忆 在 欧洲 森林 和 草原 以 及 土耳其 和 高 加 索 山 脉 的 野猫 亚 
种 。 


体型 与 大 家 猫 相似 ， 欧 洲 野 猫 宽 尖 、 长 毛 和 短 尾 一 一 在 喉 哎 、 胸 
ABARA ABE o KIETEN EREI NERA RAAR S > H 
Ba. > ZK BADE o AE, SRETAN Alle, KTA 
鱼 在 野外 很 少 捕 鱼 吃 。 


欧洲 野猫 曾 一 度 电 布 欧洲 ， 被 认为 是 最 古老 的 种 类 之 一 一 一 有 限 
的 化 石 记 隶 表明 欧洲 野猫 的 历史 可 以 追溯 到 更 早 的 更 新 世 时 期 。 在 过 
去 300 年 中 ， 由 于 受到 狩猎 以 及 人 口 扩张 的 影响 ， 欧 洲 野 猫 的 数量 已 经 


杂交 也 十 数 量 城 少 的 一 个 大 因素 。 虽 然 许多 野猫 亚 种 生活 在 侦 远 
地 区 ， 但 是 有 些 则 在 相对 靠近 人 类 居住 地 ， 因 此 它们 经 常 与 周围 的 家 
养 猫 交配 。 这 样 很 长 一 段 时 间 后 ， 茶 些 亚 种 很 可 能 会 消失 。 


